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真 的 ! 我 已 经 30 年 未 写 Shell 脚本 了 ? ! ? 现在 仔细 想 想 ， 我 想 应 该 有 取 ， 虽 然 一 开 
始 只 是 作 些 简单 的 工作 (早期 的 UNIX Shell， 在 Bourne Shell 之 前 ， 是 极为 原始 的 ， 
因此 要 写 个 实用 的 脚本 是 很 难 的 事 ， 幸 好 那 段 日 子 并 不 长 ) 。 


近 几 年 来 ，Shell 一 直 被 忽略 ， 是 一 个 不 受 重视 的 脚本 语言 。Shell 虽然 是 UNIX 的 第 
一 个 脚本 语言 ， 但 它 仍 是 相当 优秀 的 。 它 结合 了 延展 性 与 效率 ， 持 续 保 有 独 具 的 特色 ， 
并 不 断 地 被 改良 , 使 它们 多 年 来 一 直 能 与 那些 花招 很 多 的 脚本 语言 保持 抗衡 GUI 是 比 
命令 行 Shell 更 流行 的 用 户 界面 , 但 脚本 语言 时 常 都 是 这 些 花哨 的 屏幕 图 形 界面 最 强 有 
力 的 支柱 ， 并 一 直 称职 地 扮演 这 个 角色 。 


Shell 需 依 赖 其 他 程序 才能 完成 大 部 分 的 工作 ， 这 或 许 是 它 的 缺陷 ， 但 它 不 容 置 疑 的 长 
处 是 : 简洁 的 脚本 语言 标记 方式 ， 而 且 比 C (还 有 其 他 语言 ) 所 编写 的 程序 执行 更 快 、 
更 有 效率 。 它 使 用 通用 的 、 一 般 用 途 的 数据 表示 方式 ， 文 本 行 ， 在 一 个 大 的 〈 且 可 扩展 
的 ) 工具 集中 , 让 脚本 语言 能 够 搭配 工具 程序 ， 产生 无 穷 的 组 合 。 用 户 可 以 得 到 比 那些 
独占 性 软件 包 更 灵活 、 功 能 更 强大 的 工具 。Shell 的 早期 成 功 即 以 此 法 强化 UNIX 的 开 
发 哲学 ， 构 建 一 套 专门 性 、 单 一 目的 工具 , 并 将 它们 整合 在 一 起 做 更 多 的 事 。 该 原则 接 
着 鼓励 了 Shell 的 改良 ， 人 允许 用 这 种 方式 完成 更 多 的 工作 。 


Shell 脚本 还 有 一 个 超越 C 程序 的 优势 ， 同 样 也 优 于 其 他 脚本 语言 的 地 方 ， 可 用 一 般 方 
式 轻松 地 读 取 与 修改 。 即 便 不 是 C 的 程序 设计 人 员 , 也 能 像 现 今 许多 系统 管理 人 员 一 样 ， 
很 快 就 能 接受 Shell 脚本 。 如 此 种 种 ， 让 Shell 脚本 成 为 延展 用 户 环境 与 定制 化 软件 包 
的 重要 一 环 。 


的 确 ， 它 其 实 有 一 种 “周而复始 ”的 特性 ， 在 我 看 过 这 么 多 软件 项 目 之 后 。 项 目 将 简单 
的 Shell 脚本 置 于 关键 位 置 ， 让 用 户 容易 地 从 他 们 的 角度 来 定制 软件 。 然 而 ， 也 因为 这 


了 
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些 项 目的 Shell 脚本 与 周围 的 C 程序 码 相 比较 ， 要 更 容易 解决 问题 ， 所 以 不 断 产生 更 
复杂 的 脚本 。 最 后 ， 它 们 终于 复杂 到 让 用 户 很 难 轻易 地 处 理 (我 们 在 C News 项 目 里 的 
部 分 脚本 就 拥有 著名 的 Shell 压力 测试 ， 完 全 未 考虑 用 户 的 立场 )， 且 必须 提供 新 的 脚 
本 集合 ， 供 用 户 进行 定制 …… 


长 久 以 来 ， 一 直 都 没有 编写 Shell 脚本 相关 的 好 书 出 现 。UNIX 程序 设计 环境 方面 的 书 
籍 偶 有 触及 这 方面 议题 , 但 通常 只 是 简短 带 过 ,作为 它 众 多 主题 的 一 部 分 ， 有些 写 得 不 
错 的 书 也 很 久 没 有 更 新 了 。 好 的 参考 文件 应 该 是 针对 各 种 不 同 的 Shell 讨论 , 但 必须 是 
贴近 新 手 的 实战 手册 ， 涵 盖 工 具 程序 与 Shell ， 以 循序 渐 近 的 方式 介绍 ， 告 诉 我 们 如 何 
得 到 更 好 的 结果 与 输出 , 还 要 注意 到 实例 面 , 像 是 可 读 性 议题 。 最 好 它 还 讨论 各 式 Shell 
的 异同 ， 而 不 是 好 像 世 上 只 有 一 个 Shell 存在 一 样 。 


这 本 书 就 是 这 样 的 ， 其 至 做 到 比 上 面 说 的 还 多 。 至 少 ， 它 是 第 一 本 且 最 好 的 一 本 、 内 容 
最 新 的 、 以 最 轻松 的 方式 介绍 UNIX 脚本 语言 的 书 。 以 实用 的 范例 进行 解说 ;让 工具 
充分 发 挥 自己 的 效能 。 它 包括 了 标准 UNIX 工具 ， 让 用 户 有 个 好 的 开始 (对 于 觉得 看 
手册 页 有 点 难 的 用 户 来 说 ， 这 会 是 个 相当 不 错 的 参考 教材 ) 。 我 最 高 兴 的 是 看 到 将 awk 
列 入 取材 范围 , 这 是 相当 有 用 且 不 容 忽视 的 工具 程序 , 适 于 整合 其 他 工具 及 简洁 地 完成 
小 型 程序 设计 的 工作 。 


我 建议 所 有 正在 编写 写 Shell 脚本 或 管理 UNIX 系统 的 人 都 要 读 这 本 书 。 我 在 这 本 书 上 学 
到 很 多 ， 我 想 你 也 会 。 


—— Henry Spencer 
SP Systems 
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刚 开始 使 用 UNIX ( 注 1) 的 用 户 与 程序 员 突 然 面 对 各 式 各 样 的 程序 时， 都 会 有 很 多 疑 
间 ， 例 如 “它们 的 功能 是 什么 ”"， 还 有 “我 怎么 使 用 它们 ”。 


本 书 可 以 回答 你 这 些 问 题 。 告 诉 你 如 何 结合 UNIX 工具 ,将 其 与 标准 的 Shell 相 结合 完 
成 工作 。Shell 脚 本 的 编写 是 门 艺术 , 需要 的 不 只 是 Shell 语 言 的 相关 知识 ,还 要 你 对 各 
ee 为 什么 会 有 这 些 工 具 ， 要 怎么 单纯 地 使 用 它们 ， 怎 么 
将 它们 与 其 他 程序 结合 应 


人 
较 小 的 部 分 , 这 些小 部 分 也 多 半 都 能 找到 现成 的 UNIX 工 具 处 理 。 用 心 编写 的 好 用 Shell 
脚本 常常 能 够 比 C 或 C++ 语言 编写 的 程序 更 快 地 解决 相同 的 问题 。 也 可 以 让 Shell 脚本 
提供 可 移植 性 ， 也 就 是 说 ， 可 以 跨越 UNIX 与 POSIX 兼容 的 系统 ， 有 了 时 仅 需 略 作 修改 ， 
甚至 不 必修 改 ， 即 可 使 用 。 


谈 到 UNIX 程序 时 ， 我 们 使 用 工具 (tool) 这 个 字 。 以 UNIX 工具 箱 (toolbox) 的 做 法 
解决 问题 ， 长 久 以 来 以 “软件 工具 (Software Tools)” 哲 学 ( 注 2) 为 人 所 熟知 。 


瑞士 军刀 是 很 多 人 口袋 里 的 好 帮手 。 它 有 刀刃 、 螺 丝 起 子 、 开 镀 器 、 牙 签 等 工具 。 功 能 
更 齐备 的 , 还 有 其 他 像 拔 塞外 、 放 大 镜 等 工具 。 瑞士 军刀 能 派 上 用 场 的 时 候 很 多 ， 虽然 
用 它 来 修 前 和 进行 简单 雕刻 很 不 错 ,但 你 绝 不 会 拿 它 来 盖 狗 屋 或 制作 鸟 类 喂食 器 相反， 





注 1: ， 整 本 书 里 ， 我 们 部 使 用 UNIX 这 个 字 ， 指 的 不 单单 是 商用 的 UNIX 系统 原始 版 本 ， 像 
Solaris、Mac OS X， 与 HP-UX， 还 包括 可 自由 取得 的 类 似 系统 ， 例 如 GNU/Linux 与 
各 种 BSD 系统 : BSD/OS、NetBSD、FreeBSD, 与 OpenBSD。 


注 2: 此 法 因 《Software Tools》(Addison-Wesley) 这 本 书 而 广 受 欢迎 。 
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做 这 类 工作 时 你 会 寻求 更 专门 的 工具 ， 例 如 铁 槐 、 锯 子 、 夹 钳 或 刨 刀 等 。 同 理 ; 当 你 在 
解决 程序 化 问题 时 ， 使 用 专门 的 软件 工具 会 比较 好 。 


这 是 给 谁 看 的 书 

这 本 书 是 写 给 那些 在 UNIX 环境 下 发 现 必 须 写 些 Shell 脚本 ， 以 利于 工作 进行 的 计算 机 
用 户 与 软件 开发 人 员 。 例 如 ， 你 可 能 是 正在 念 计算 科学 的 学 生 , 手 上 有 学 校 给 你 的 第 一 
个 UNIX 系统 账号 , 你 想 知 道 在 UNIX 下 更 多 的 东西 , 例如 你 的 Windows 个 人 计算 机 无 
法 处 理 的 那些 工作 (这 种 情况 下 ， 你 通常 得 写 几 个 脚本 来 定制 个 人 环境 )。 或 者 ， 你 可 
能 是 个 系统 管理 新 手 ， 需 要 为 公司 或 学 校 写 几 个 专用 程序 (可 能 是 处 理事 件 日 志文 件 ， 
账号 、 账 单 管理 之 类 的 事情 ) 。 你 也 可 能 是 Mac OS 的 开发 老手 , 但 转 到 新 新 的 Mac OS 
X 的 世界 , 它 的 安装 程序 是 以 Shell 脚本 写成 。 不管 你 来 自 哪 里 , 如 果 你 想 学 Shell 脚 本， 
这 本 书 就 是 写 给 你 的 。 在 这 本 书 里 你 能 学 到 : 


软件 工具 设计 秦 念 与 原则 
一 些 好 的 软件 工具 设计 与 实例 上 的 实践 规则 ,我们 会 解释 这 些 原则 , 还 会 在 这 本 书 
里 贯彻 执行 。 

UNIX 工具 是 什么 
UNIX 的 核心 工具 组 会 在 我 们 编写 Shell 脚本 时 不 断 地 重复 使 用 。 我 们 会 介绍 Shell 
与 正则 表达 式 的 基本 概念 ， 并 在 解决 特定 问题 时 展现 各 种 核心 工具 的 用 法 。 除 了 
介绍 工具 能 做 什么 之 外 , 我 们 还 会 告诉 你 , 为 什么 要 使 这 个 工具 , 为 什么 它 有 这 些 
特殊 选项 。 


《Learning UNIX》 这 本 书 是 在 介绍 UNIX 系统 ， 让 你 从 对 UNIX 毫 无 经 验 成 长 为 
会 基本 操作 的 用 户 。《UNIX in a Nutshell》 这 本 书 则 是 广泛 地 介绍 UNIX 工具 包 ， 
对 于 使 用 时 机 与 特定 工具 用 法 的 介绍 很 少 。 我 们 的 目的 就 在 弥补 这 两 本 书 之 间 的 负 
沟 : 如 何 灵活 运用 这 些 UNIX 提 供 的 工具 包 , 让 工作 更 顺畅 ， 更 有 效率 ， 也 更 从 容 
(我 们 的 期 望 ) 。 
如 何 结合 所 有 工具 ， 完 成 工作 
编写 Sheil 脚本 时 ， 其 实 会 是 “整体 的 功能 比 各 部 分 加 起 来 的 总 和 还 强大 ” 。Shell 
的 使 用 就 像 整 合 个 别 工 具 的 黏着 剂 ， 让 你 只 要 花 点 心思 ， 就 能 得 到 惊人 的 效果 。 
原 淮 工具 几 个 常见 的 扩展 
如 果 你 已 经 是 GNU/Linux 或 BSD 系统 的 用 户 ， 很 可 能 你 的 工具 还 有 其 他 额外 的 、 
好 用 的 功能 或 选项 。 这 部 分 我 们 也 会 介绍 。 
不 可 或 缺 的 非 标 准 工具 
有 些 程序 , 在 大 部 分 传统 的 UNIX 系统 里 并 非 “ 标 准 的 ”, 但 我 们 又 不 能 没有 它 。 我 
们 会 在 适当 的 地 方 介绍 它们 ， 也 会 提供 使 用 时 机 的 相关 信息 。 
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对 长 期 使 用 UNIX 的 开发 人 员 与 管理 者 来 说 ， 软 件 工具 的 设计 原则 一 直 没 有 什么 改变 。 
因此 , 推广 的 书籍 虽然 还 算 堪 用 , 但 已 经 20 年 未 更 新 了 ,甚至 更 久 ! UNIX 系统 在 这 些 
书写 成 之 后 ， 有 了 许多 变动 。 因 此 , 我 们 觉得 是 更 新 这 些 想 法 的 时 候 了, 我们 利用 这 些 
工具 的 现行 版 本 、 在 现行 系统 下 展示 范例 。 下 面 是 我 们 将 要 强调 的 部 分 : 


所 有 的 呈现 是 以 POSIX 为 基础 。 POSIX 为 一 系列 描述 可 移植 操作 系统 环境 的 标准 
正式 名 称 的 缩写 。POSIX 标准 是 开发 人 员 的 挑战 ， 他 们 必须 兼顾 程序 与 Shell 脚本 
在 不 同 厂 商 所 提供 的 各 种 平台 上 的 可 移植 性 。 我 们 将 在 最 新 的 POSIX 标准 下 展现 
Shell 语言 、 各 个 工具 程序 及 其 选项 。 


该 标准 的 官方 名 称 为 IEEE Std. 1003.1-2001 ( 注 3)， 它 包括 数 个 可 选用 的 部 分 ， 
最 重要 的 一 个 就 是 X/Open System Interface.(XSI) 规格 。 这 些 功能 文件 详细 描述 
了 UNIX 系统 长 久 以 来 的 行为 模式 。 我 们 会 介绍 现行 标准 与 早期 1992 标准 间 的 差 
异 ， 也 会 提供 与 XSI 相 关 的 特点 。 要 了 解 UNIX 相关 标准 ，htip:/www.UNIX.org/ 
( 注 4) 是 一 个 很 好 的 起 点 。 

Single UNIX Specification 的 官方 网 站 为 http:/Wwww. UNIX.org/version3/。 该 标准 
可 在 线 访问 ， 不 过 得 先 到 http:/www.UNIX.org/version3/online.html 注册 。 

有 时 ， 该 标准 会 将 特殊 行为 模式 保留 为 未 定义 (unspecified)。 这 是 为 了 能 让 厂商 
以 扩展 的 方式 支持 该 行为 ， 例 如 :额外 的 功能 与 标准 本 身 未 做 成 文件 的 部 分 。 
除了 告诉 你 如 何 执行 特定 程序 外 , 我 们 还 会 强调 这 些 程序 存在 的 原因 , 及 它们 能 解 
决 什么 问题 。 了 解 为 什么 会 有 这 样 的 程序 , 有 助 于 你 进一步 了 解 它 的 使 用 时 机 与 方 
式 。 


大 部 分 的 程序 都 提供 了 相当 多 的 选项 组 合 。 但 通常 只 有 一 小 部 分 是 日 常 工作 用 得 上 
的 。 这 类 程序 , 我 们 会 让 你 知道 它 的 哪些 选项 较 方便 好 用 。 事 实 上 , 我 们 无 法 遍及 


每 个 程序 的 所 有 选项 ， 未 提 及 的 部 分 ， 你 可 以 通过 程序 的 使 用 手册 或 其 他 参考 书 


籍 ,例如 《UNIX in a Nutshell》(O’Reilly) 与 《Linux in a NutShell》(O’Reilly)， 
来 了 解 它 。 


在 你 看 完 这 本 书 之 后 ， 你 不 仅 能 了 解 UNIX 工具 集 ， 还 能 吸收 到 UNIX 的 中 心思 想 与 软 
件 工具 设计 的 原则 。 





注 3: 


注 4: 


该 标准 的 2004 版 在 本 书 内 文 底 定 后 才 发 表 。 对 学 习 Shell 脚本 而 言 ，2001 与 2004 间 的 
差异 并 不 重要 。 

有 关 IEEE Std. 1003. 1-2001 的 常见 技术 性 问答 (FAQ) 文件 ， 你 或 许可 以 在 http:1/ 
www.opengroup.org/austin/papers/posix_faq.html 找到。 与 标准 有 关 的 后 台 知 识 ， 则 在 
htip:/www.opengroup.org/austin/papers/backgrounder.html 中 。 
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你 应 该 先 有 什么 基础 

我 们 认为 读者 应 该 了 解 以 下 月 景 知识 ， 

。 如何 登录 UNIX 系统 

。 ”如 何在 命令 行 上 执行 程序 

。 ”如 何 做 一 个 简单 的 命令 管道 ， 与 使 用 简单 的 输出 /入 重 定向 ， 例 如 < 与 > 

。 ”如 何以 & 将 程序 放 到 后 台 执行 

。 ”如 何 建立 与 编辑 文件 

。 ”如 何 使 用 chmoa， 将 脚本 设 为 可 执行 权限 

再 者 ， 如果 你 想 试 着 操作 本 书 范例 ,在 你 的 终端 机 (或 终端 机 模拟 器 ) 下 达 命 令 时 ,我 


们 建议 你 使 用 POSIX 兼容 的 Shell， 例 如 ksh93 的 最 新 版 本 ， 或 bash 的 近期 版 本 。 请 
特别 注意 ; 商用 UNIX 系统 上 的 /bin/sh 可 能 并 非 完全 兼容 于 POSIX。 


ksh93、bash 与 zsh 的 下 载 网 址 请 见 第 14 章 。 


< 
各 童 介绍 
我 们 建议 你 依 序 阅读 本 书 , 因为 每 个 章节 都 与 前 面 章节 息息相关 。 我 们 在 此 逐 章 介绍 如 
下 。 


第 1 章 ， 背景 知识 
此 处 提供 简短 的 UNIX 历史 沿革 。 特别 是 贝尔 实验 室 的 运算 环境 ， 也 就 是 UNIX 开 
发 的 地 方 , 激发 了 许多 软件 工具 设计 上 的 哲学 。 该 章 还 会 介绍 这 些 原则 , 并 在 本 书 
中 贯彻 执行 

和 换 2 章 ， 人 门 
该 章 从 编译 语言 与 脚本 语言 间 的 取舍 开始 讨论 。 之 后 再 介绍 两 个 相当 简单 但 很 实用 
的 Shell 脚 本 程序 。 涵盖 范 围 包括 了 命令 、 选 项、 参数、 Shell 变 量 、echo 与 printf 
的 输出 、 基 本 输入 /输出 重 定向 、 命 令 查 找 、 从 脚本 里 访问 参数 以 及 执行 跟踪 。 最 
后 则 以 国际 化 与 本 地 化 结束 ， 这 是 在 今日 “地 球 村 ”环境 下 渐 受 重视 的 议题 。 


第 3 竟 ， 栖 找 与 巷 换 
这 里 会 介绍 以 正则 表达 式 进行 文字 查找 (或 比 对 )。 我 们 还 会 说 明 修 改 与 提取 文字 
的 操作 。 这 些 都 是 最 基本 的 Shell 脚本 编写 的 操作 。 
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第 4 章 ， 文 本 人 处理 工具 
该 章 介绍 的 是 一 些 文字 处 理 的 软件 工具 ,这 些 在 Shell 脚本 编写 时 ， 都 会 一 再 地 使 
用 。 其 中 最 重要 的 两 个 就 是 sort 与 uniq, 在 重组 与 降低 数据 量 上 ， 它 们 扮演 很 重 
要 的 角色 。 本 章 还 会 带 你 看 看 如 何 重 新 编排 段落 、 计 算 文字 单位 、 显 示 文 件 以 及 取 
出 文件 的 前 几 行 : 后 几 行 数据 。 


第 5 竟 ， 管 道 的 神奇 谦 力 
该 章 以 几 个 小 型 脚本 为 例 , 展示 结合 简单 的 UNIX 工 具 程 序 能 够 产生 更 强大 、 更 灵 
活 的 工具 。 本 章 的 内 容 采 取 cookbook (问题 描述 与 解决 方案 ) 的 形式 ， 它 们 共同 
的 部 分 在 于 所 有 的 解决 方案 都 组 合 自 线性 的 管道 (pipelines ) 。 


第 6 章 ， 变 和 最、 判断 、 重 复 动作 
这 章 介绍 Shell 语 言 里 不 可 或 缺 的 部 分 。 包 含 了 Shell 变 量 与 算法 . 退出 状态 的 重要 
概念 、 如 何 判断 ， 以 及 Shell 循环 的 处 理 。 最 后 以 Shell 的 函数 作 结 束 。 


第 7 童 ， 输 人 /和 葵 出 、 文 件 与 命令 执行 
该 章 为 Shell 描述 的 另 一 章 ， 也 是 结尾 ， 重 点 放 在 输入 /输出 、Shell 所 执行 的 各 种 
替换 、 加 引号 、 命 令 行 执行 顺序 ， 以 及 Shell 内 置 命令 上 。 


第 8 童 ， 产生 层 本 
我 们 在 这 里 会 示范 如 何 结合 UNIX 的 工具 以 处 理 更 复杂 的 文本 处 理工 作 。 本 章 的 程 
序 比 第 5 章 的 还 大 , 但 仍 是 几 分钟 便 能 消化 掉 。 甚 至 它们 所 完成 的 工作 ,如 果 使 用 
传统 的 程序 语言 ， 例 如 C、C++ 或 Java™ 来 做 ,会 很 困难 。 


第 9 童 ，awk 的 炉 人 表现 
该 章 介绍 的 是 awk 语言 必 备 的 组 成 部 分 。awk 是 一 套 功 能 强大 且 自 给 自足 的 语言 。 
而 awk 程序 更 可 用 来 与 其 他 软件 工具 箱 里 的 其 他 程序 相 结合 ,以 执行 简单 的 数据 提 
取 、 处 理 与 格式 编排 工作 。 


第 10 章 ,文件 处 理 
该 章 介 绍 了 处 理 文 件 的 几 个 主要 工具 。 包括 列 出 文件 、 产生 临时 文件 , 以 及 利用 指 
定 标 准 寻 找 文 件 的 finad 命 令 。 另 外 还 有 两 个 与 磁盘 空间 有 关 的 重要 命令 , 以 及 比 
较 文件 间 异 同 的 几 个 程序 。 

第 17 章 ， 扩 展 实例 : 合并 用 户 数据 库 
将 所 有 东西 串 起 来 ， 解 决 既 有 趣 又 难 易 适中 的 挑战 性 工作 。 

委 712 章 ， 雯 写 雄 查 
该 章 利用 拼写 检查 的 问题 ,展现 如 何以 数 种 方式 解决 它 。 这 里 展现 了 原始 的 UNIX 
Shell 脚本 管道 以 及 两 个 小 型 的 脚本 : ispell 与 aspel1 命 令 ， 可 自由 下 载 ， 它 们 
更 适用 于 批 处 理 的 拼写 检查 工作 。 我 们 以 awk 写 了 一 个 大 小 适当 的 拼写 检查 程序 ， 
充分 展现 使 用 该 语言 的 简单 利落 。 


www.TopSage.com 


Co 
导 
中 





策 73 章 ， 进 硬 
该 章 将 重点 从 文本 处 理 的 领域 转 到 工作 (job) 与 系统 管理 上 。 我 们 介绍 了 几 个 用 
于 管理 进程 的 必 备 工具 ,还 有 sleep 命令 , 这 在 脚本 需要 等 待 茶 些 事 发 生 时 很 有 
用 , 另外 则 是 其 他 一 些 用 于 延迟 的 标准 工具 ; 或 修正 日 期 时 间 命 令 的 处 理 。 最 重要 
的 是 ， 该 章 也 包括 了 trap 命令 ， 它 可 以 让 Shell 脚 本 控制 UNIX 的 信和 号。 


第 14 竟 ，Shell sa 移植 性 议 籁 与 扩展 
这 里 介绍 的 是 一 些 更 有 用 的 扩展 ， 可 使 用 于 ksh 与 bash 之 下 ,而 非 POSIX。 一 
般 情 况 下 ， 你 都 能 安心 地 将 这 些 扩展 套用 在 你 的 脚本 里 。 该 章 还 会 带 你 看 几 个 
“gotchas”, 这 是 等 待 粗 心 大意 的 Shell 脚本 编写 者 跳 和 的 陷阱 。 内 容 包 括 了 在 编写 
脚本 时 该 注意 的 事项 , 还 有 在 执行 时 可 能 出 现 的 矛盾 。 除 此 之 外 , 还 包括 有 ksh 与 
pash 的 下 载 与 安装 。 该 章 最 后 会 探讨 各 种 不 同 的 Shell 实现 间 ， Shell 初始 化 与 终 
结 的 差异 。 

第 15 童 ， 安 全 的 Shell 脚 杰 : 起 点 
该 章 会 粗略 介绍 编写 Shell 脚本 时 的 安全 性 议题 。 


奉 录 4， 编 写 手 大 页 
该 附录 讲 的 是 如 何 编写 手册 页 。 这 个 必 备 的 技术 ， 在 传统 的 UNIX 的 书籍 里 常 被 名 
略 。 

内 录 ， 文件 与 文件 系统 
这 个 附录 会 介绍 UNIX 的 字 节 数据 流 文件 系统 模型 ， 并 与 较 复 杂 的 文件 系统 对 照 ， 
然后 解释 其 简洁 的 好 处 。 

脏 录 C， 重 要 的 UNIX 命令 
该 附录 提供 了 许多 UNIX 命 令 的 列表 。 建议 你 :了解 这 些 命令 , 它们 可 以 增强 你 的 能 
力 。 

参考 发 所 
A ee is 


本 书 惯例 


我 们 假设 你 已 经 知道 ， 输 入 Shell 命 令 时 ， 最 后 会 按 下 Enter。 Enter 在 某 些 键盘 上 被 表 
示 为 Return 。 


提 到 Ctrl- 和 时 ,X 指 的 是 任意 字母 ， 是 在 你 按 住 Ctrl (或 Ctl, 或. Control) 之 后 ， 接 着 
按 下 的 键 。 虽 然 我 们 这 里 用 的 是 大 写 ， 不 过 你 在 按 这 个 字母 的 时 候 无 须 按 住 Shift 键 。 


其 他 特殊 字符 有 换行 符号 〈 同 于 Ctrl-J)、 Backspace ( 同 于 cuLHy Esc. Tab, 与 Del 
(有 时 被 标示 为 Delete 或 Rubout ) 。 | | 
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本 书 使 用 下 列 字体 惯例 : 


禾 俯 (ltalic) 
用 在 电子 邮件 地 址 、Internet URL、 使 用 手册 的 引用 。 还 用 以 表示 参数 ,表示 你 在 
使 用 时 ， 可 以 将 它 置换 为 你 要 的 实际 值 ， 以 及 为 范例 提供 说 明 性 文字 。 


等 宽 字体 (Constant width) | 
提 及 UNIX 文 件 名 、 扩 展 与 内 置 命令 、 命 令 选 项 时 ， es 除 此 
之 外 ， 变 量 名 称 、Shell 关键 字 、 选 项 、 国 数 、 文 件 名 结尾 、 范 例 中 显示 文件 内 容 
或 命令 的 输出 , 以 及 当 命令 和 0 我 们 也 会 以 等 宽 字 
体 表示 。 简 而 言 之 ， 任 何 与 计算 机 使 用 相关 的 ， 我 们 都 用 这 个 字体 。 


粗 体 等 宽 字 体 (Constant width Bold) 
这 种 字体 用 以 区 分 比 对 文字 中 的 正则 表达 式 与 Shell 通 配 字符 样式 。 在 范例 中 , 显 
示 用 户 与 Shell 间 的 互动 ,我 们 也 会 使 用 这 个 字体 ， 所 有 用 户 应 键 人 的 ， 我 们 都 以 
粗 体 等 宽 字 体 显 示 ， 像 这 样 : 


$ pwd 用 户 输入 这 个 
/home/tolstoy/novels/w+p 系统 显示 这 个 
$ 


斜体 等 宽 字体 (Constant width italic) 
这 个 字 体 是 用 在 范例 与 内 文中 ， 需 置 换 为 正确 值 的 命令 行 参数 上 。 例如 : 


$ cd directory 








注意 : 表示 读 穿 、 建 议 或 一 般 注意 事项 。 














警告 ， 表 示警 告 与 提醒 。 








参照 UNIX User’s Manual 时 ， 我 们 会 使 用 标准 形式 name(N)，name 为 命令 名 称 ， 而 
NN 为 section 编号 (通常 是 1), 也 就 是 寻找 信息 的 地 方 。 例 如 grep(1) 即 grep 的 Section 
1 的 手册 页 。 参 考 文件 我 们 使 用 man page， 或 直接 简 为 manpage。 


UNIX 系统 调用 与 C 程序 库 ， 我 们 都 这 么 写 : open{)、printf() ,你 可 以 使 用 man 命 
令 ， 查 看 这 两 者 的 manpage; 


$ man open 查看 open(2) 的 manpage 
$ man printf 查看 printf(3) 的 manpage 


当 我 们 要 介绍 一 个 程序 时 ， 就 使 用 下 面 的 方式 ， 显示 在 正文 附近 ， 说 明 该 工具 程序 与 它 
的 重要 选项 语法 与 用 途 。 
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范例 





证 潜 
whizprog [ options ... ] [ arguments ... ] 
说 明 如 何 执行 这 里 指出 的 whizprog 命 令 。 
用 途 
说 明 此 程序 存在 的 目的 。 
主要 赣 项 
| 列 出 此 程序 每 天 要 用 到 的 重要 选项 。 
行 为 模式 
概括 程序 所 做 的 事 。 










所 有 要 注意 的 事 全 在 这 。 


程序 码 范 例 
本 书 并 非 只 是 解释 命令 与 程序 的 功能 , 还 提供 了 完整 的 Shell 命 令 与 程序 的 设计 范例 , 便 
于 用 户 或 程序 员 直 接应 用 于 日 常 工作 上 。 我 们 非常 鼓励 你 修改 与 强化 这 些 范例 。 


本 书 所 提供 的 程序 代码 ， 都 公开 在 GNU General Public License (GPL) 条 款 下 ， 人 允许 
程序 复制 、 再 利用 与 编 修 。 请 参阅 范例 包括 的 COPYING 文 件 ， 了 解 许 可 权 的 实际 条 款 。 


代码 可 从 原 书 网 站 获得 : http://www.oreilly.com/catalog/shellsrptg/index.html,。 


我 们 会 感谢 你 在 使 用 程序 码 范 例 时 注 明 出 处 ， 但 这 并 非 必要 。 这 通常 包括 标题 、 作 者 、 
出 版 商 与 ISBN。 例 如 : 《Classic Shell Scripting》， 作 者 Arnold Robbins 与 Nelson H.F. 
Beebe。 版 权 所 有 2005 O’Reilly Media, Inc.，ISBN 为 0-596-00595-4。 


Windows 系统 下 的 UNIX 工具 程序 


很 多 的 程序 员 初 次 接触 UNIX 系统 后 , 再 回 到 个 人 计算 机 的 世界 ,常会 希望 也 有 一 个 像 
UNIX 那样 好 用 的 环境 (特别 是 在 面 对 难 以 处 理 的 MS-DOS 命令 行 时 ), 所 以 会 有 UNIX 
Shell 式 的 界面 出 现在 一 些小 型 计算 机 的 操作 系统 上 ， 也 不 是 什么 奇怪 的 事 。 


近 几 年 ， 我 们 不 只 看 过 Shell 仿制 品 ， 还 看 过 整个 完整 的 UNIX 环境 的 仿制 品 。 其 中 两 
个 就 是 使 用 bash 与 ksh93， 其 他 则 是 提供 自 有 的 Shell 重新 实现 (reimplementation ) 。 
本 节 将 依次 〈 以 字母 顺序 ) 予以 介绍 ， 并 附 上 联络 方式 与 Internet 下 载 信 息 。 
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Cygwin 


Cygnus Consulting ( 现 为 Red Hat) 建立 了 cygwin 环境。 首先 出 现 的 是 提供 UNIX 系 
统 调用 模拟 器 的 共享 程序 库 cgywin.d11, 该 公司 释 出 了 许多 GNU 工 具 程 序 , 供 各 种 不 
同 的 Microsoft Windows 版 本 使 用 。 模 拟 器 还 包括 了 Berkeley socket API 的 TCP/IP 网 
络 , 在 Windows/NT、Windows 2000 与 Windows XP 下 , 功能 性 最 佳 , 不 过 在 Windows 
95/98/ME 下 也 是 可 以 运行 的 。 


cygwin 环境 使 用 自己 的 Shell、 自 己 的 C 编译 器 GCC， 以 及 搭配 其 UNIX 工具 集 里 的 
GNU 工具 程序 。 设 计 精 良 的 mount 命令 提供 了 将 Windows C:\pPath 的 标记 方式 对 应 
到 UNIX 文件 名 。 


http://www.cygwin.com/ 是 你 了 解 cygwin 项 目的 起 点 。 第 一 步 就 是 下 载 它 的 安装 程序 ， 
执行 时 ， 你 可 以 选择 要 安装 哪些 额外 包 。 整 个 安装 过 程 都 是 在 Internet 上 进行 ， 没 有 官 
方 的 cygwin CD ， 至 少 项 目的 维护 人 员 并 没有 提供 。 


DJGPP 


DJGPP 程序 组 提供 了 MS-DOS 环境 下 所 使 用 的 32 位 GNU 工具 程序 。 以 下 内 容 摘自 其 


DJGPP 为 执行 MS-DOS 的 Intel 80386 (及 更 高 级 的 ) 个 人 计算 机 提供 了 完整 的 32 
位 C/C++ 开发 系统 。 其 中 包含 许多 GNU 开发 工具 程序 。 这 些 开 发 的 工具 必须 在 
80386 或 更 高 级 的 计算 机 上 执行 产生 程序 。 大 部 分 情况 下 ,其 所 产生 的 程序 可 做 商 
业 用 途 而 无 须 授 权 或 版 税 。 


其 名 称 一 开始 是 来 自 D.J. Delorie，D.J. Delorie 将 GNU C++ 编译 器 g++ 移植 到 MS- 
DOS , 而 g++ 一 开始 的 名 称 为 GPP。 之 后 逐渐 基 壮 成 长 , 成 为 MS-DOS 下 完整 的 UNIX 
环境 不 可 或 缺 的 要 素 , 并 带 有 GNU 工 具 , 以 bash 作 为 其 Shell, 不 同 于 cygwin 或 UWIN 
的 是 : 不 需要 使 用 任何 的 Windows 版 本 , 只 要 有 完整 的 32 位 处 理 器 与 MS-DOS 即 可 ( 当 
然 ， 你 也 可 以 在 Windows 的 MS-DOS 窗口 下 使 用 DJGPP)。 官 方 网 站 为 http:// 
www.delorie.com/djgpp/。 


MKS Toolkit 
个 人 计算 机 世界 里 的 UNIX 环境 有 许多 都 是 以 Mortice Kern Systems 的 MKS Toolkit 建 


立 的 : 
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MKS Canada 一 Corporate Headquarters 
410 Albert Street 

Waterloo, ON 

Canada N2L 3V3 

1-519-884-2251 

1-519-884-8861 (FAX) 

1-800-265-2797 (Sales) 
http:/www.mks.com/ 


MKS Toolkit 版 本 非常 多 ,根据 你 的 开发 环境 和 开发 人 员 的 数量 来 决定 要 用 哪 一 个 版 本 。 
其 中 包含 了 与 POSIX 兼容 的 Shell， 拥有 1988 Korn Shell 里 的 所 有 功能 ， 超 过 300 种 
的 工具 组 ,例如 awk、perl、vi、make 等 。MKS 程序 库 支 持 超 过 1500 个 UNIX API， 
使 它 更 为 完整 ， 更 易于 应 用 在 Windows 环境 下 。 


AT&T UWIN 


UWIN 包 是 David Korn 与 同事 为 了 在 Microsoft Windows 下 使 用 UNIX 环境 而 产生 的 
项 目 。 其 架构 类 似 先前 讨论 的 cygwin。 共享 程序 库 posix.d11 提 供 了 UNIX 系统 调用 
API 的 模拟 器 。 其 系统 调用 模拟 器 相当 完整 。 其 中 一 个 有 趣 的 创新 就 是 将 Windows 的 登 
录 改 为 可 在 /reg 文件 系统 下 访问 的 方式 。UWIN 环境 依赖 原始 的 Microsoft Visual C/ 
C++ 编译 器 ， 不 过 仍 可 自 4 了 下 载 GNU 开发 工具 用 于 UWIN 下 


http://www:research.att. comaoolsiowies 居民 目的 网 页 ， 以 可 人 的 有 了 上， 

并 附 上 二 进 制 文件 的 下 载 链接 , 还 有 与 UWIN 的 使 用 许可 权 相 关 的 信息 。 除 此 之 外 ， 

有 UWIN 的 各 类 报告 、 额 外 的 好 用 软件 及 其 他 类 似 包 的 链接 。 

UWIN 包 最 大 的 优势 为 它 的 Shell 是 一 个 真正 的 ksh93， 因 此 在 与 UNIX 的 ksh93 版 
本 的 兼容 性 上 不 会 有 问题 。 


联系 我 们 
请 将 关于 本 书 的 意见 和 问题 通过 以 下 地 址 提供 给 出 版 商 : 


美国 : 
O’Reilly Media, Inc.. 加 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 
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100035 北京 市 西城 区 西直门 南大 街 2 号 成 铭 大 厦 C 座 807 室 
奥 菜 利 技术 咨询 (北京 ) 有 限 公 司 


O'Reily 公 司 是 世界 性 的 计算 机 信息 出 版 公司 。 我 们 永远 乐意 听 到 读者 对 出 版 物 的 意见 ; 

包括 如 何 让 本 书 可 以 更 好 的 建议 ,指正 本 书 的 错误 或 是 读者 建议 本 书 往 后 改版 时 应 该 再 

加 入 的 其 他 主题 。 以 下 是 英文 原 书 的 联络 数据 : 
http://oreilly.com/catalog/9780596005955/index.html 


如 果 想 要 发 表 关于 本 书 的 评论 和 技术 问题 ， 请 发 邮件 至 : 


bookquestions @oreilly.com 
info@mail.oreilly.com.cn 


关于 图 书 、 会 议 、 资 源 中 心 和 O'Reilly 网 络 的 更 多 信息 ， 请 查看 我 们 的 站 点 : 


http:/www.oreilly.com 


http://www.oreilly.com.cn 


致谢 
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本 章 将 简 述 UNIX 系统 的 发 展 中。 了解 UNIX 在 何 处 开发 、 如 何 开发 ， 以 及 它 的 设计 动 
机 。 这 有 助 于 用 户 善 加 利用 UNIX 所 提供 的 工具 。 此 外 ,本 章 将 介绍 软件 工具 的 设计 原 
则 。 儿 


1.1 UNIX 简 史 


或 许 你 对 于 UNIX 的 发 展 史 已 有 些 了 解 ， 并 且 已 经 有 很 多 介绍 UNIX 完整 发 展 历史 的 次 
料 。 这 里 ， 我 们 只 想 让 你 知道 : UNIX 是 在 何 种 环境 下 诞生 的 ， 以 及 它 如 何 影响 软件 工 
具 的 设计 。 


UNIX 最 初 是 由 贝尔 电话 实验 室 (Bell Telephone Laboratories， 注 1) 的 计算 机 科学 研 
究 中 心 (Computing Sciences Research Center) 开发 的 。 第 一 一 版 诞生 于 1970 年 一 一 也 
就 是 在 贝尔 实验 室 (Bell Labs) j 退出 Multics 项 目 不 久 。 在 UNIX 广 受 欢迎 的 功能 中 ， 有 
许多 便 是 来 自 Multics 操作 系统 。 其 中 最 著名 的 有 : 将 设备 视 为 文件 ， 以 及 特意 不 将 命 


令 解 释 器 (commiand interpreter) 或 Shell 整合 到 操作 系统 中 ; 更 完整 的 历史 信 ， 外 可 在 
http://www.bell-labs. Eo oe 2 


由 于 UNIX 是 在 面向 研究 的 环境 下 开 改 的， 本 没有 必须 生产 或 销售 成 吕 的 玫 夺 力 ， 
这 使 其 具有 下 列 优势 : 


人 





注 1: 缠 名 着 下 全 已 灾 史 数 交 。 ee A 由 和 类 玫 室 "Bell aby 你 
呼 它 。 
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上 了 多 天语 


研究 人 员 可 以 不 受 拘束 地 进行 实验 ， 必 要 时 也 可 任意 变换 程序 。 由 于 用 户 群 不 大 ， 
车 程序 有 必要 整个 重 写 , 多 半 也 不 会 太 难 。 由 于 用 户 即 为 开发 人 员 , 发 现 问题 时 便 


能 随即 修正 ， 有 地 方 需要 加 强 时 ， 也 可 以 马上 就 做 。 


”UNIX 书 历 经 数 个 版 本 ,各 个 版 本 以 字母 V 加 上 数字 作为 简称 , 如 V6、V7, 等 等。 


(正式 名 称 则 是 遵循 发 行 的 使 用 手册 的 修订 次 数 编号 来 命名 ， 例 如 First Edition、 
Second Edition ， 等 等 。 这 两 种 名 称 的 对 应 其 实 很 直接 : V6 = Sixth Edition、V7 = 
Seventh Edition。 和 大 多 数 有 经 验 的 UNIX 程 序 员 一 样 , 这 两 种 命名 方式 我 们 都 会 
用 到 )。 影 响 最 深远 的 UNIX 系统 是 1979 年 所 发 行 的 第 7 版 (Seventh Edition), 但 
是 在 最 初 的 几 年 , 它 仅 应 用 于 学 术 教 育 机 构 领 域 。 值 得 一 提 的 是 : 第 7 版 的 系统 同 
时 提出 了 awk 与 Bourne Shell， 这 二 者 是 POSIX Shell 的 基础 ， 同 时 ， 第 一 本 讨 
论 UNIX 的 书 也 在 此 诞生 。 


贝尔 实验 室 的 研究 人 员 都 是 计算 机 科学 家 。 他 们 所 设计 的 系统 不 单单 是 自己 使 用 ， 

还 要 分 享 给 同事 一 一 这 些 人 一 样 也 是 计算 机 科学 家 。 因 此 ， 衍 生出 “务实 ”(no 

nonsense) 的 设计 模式 : 程序 会 执行 你 所 赋予 的 任务 , 但 不 会 跟 你 对 话 ， a 
一 堆 “ 你 确定 吗 ? ”之 类 的 问题 。 

除了 精益 求 精 , 在 设计 与 问题 解决 上 ,他 们 也 不 断 地 追求 “优雅 "(elegance)。 关 

于 “优雅 ”有 一 个 贴切 的 定义 ; 简单 就 是 力量 (power cloaked in simplicity， 注 2) 。 

贝尔 实验 室 自由 的 环境 ， 所 造就 的 不 仅 是 一 个 可 用 的 系统 ， 也 是 一 个 优雅 的 系统 。 


当然 ， 自由 同样 也 带 来 了 一 些 缺 点 。 当 UNIX 流传 至 开发 环境 以 外 的 地 方 ， 这 些 问 题 也 
逐一 浮现 : 


注 2: 


工具 程序 之 间 存在 许多 不 一 致 的 地 方 。 例 如 , 同样 的 选项 字母 , 在 不 同 程序 之 间 有 
完全 不 一 样 的 定义 ; 或 是 相同 的 工作 却 需 要 指定 不 同 的 选项 字母 。 此 外 , 正则 表达 
式 的 语法 在 不 同 程序 之 间 用 法 类 似 ， 却 又 不 完全 一 致 ， 易 产生 混淆 一 一 这 种 情况 
其 实 可 以 避免 。( 直 至 正则 表达 式 的 重要 性 受到 认可 ， 其 模式 匹配 机 制 才 得 以 收录 
在 标准 程序 库 中 。) 二 

诸多 工具 程序 具有 缺陷 ， 例 如 输入 行 (input lines) 的 长 度 ， 或 是 可 打开 的 文件 个 
数 ， 等 等 。( 现 行 的 系统 多 半 已 经 修正 这 些 缺陷 。) 


有 时 程序 并 未 经 过 彻底 测试 , 这 使 得 它们 在 执行 的 时 候 一 不 小 心 就 会 遭 到 破坏 。 这 


我 最 初 是 在 20 世纪 80 年 代 从 Dan Forsyth 口中 听 到 这 个 定义 的 。 
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可 能 会 导致 核心 转 储 (core dumps, 译注 1), 令 用 户 不 知 所 措 * 幸好 , 现行 的 UNIX 
系统 极 少 会 面临 这 样 的 问题 。 . 1 

。 ”系统 的 文档 尽管 大 致 上 内 容 完备 ,但 通常 极为 简单 。 使 得 用 户 在 学 习 时 很 难 找到 所 
需要 的 信息 ( 注 3)。 


本 书 之 所 以 将 重点 放 在 文本 (而 非 二 进 制 ) 数据 的 处 理 与 运用 上 ,是 由 于 UNIX 早 期 的 
发 展 都 源 自 于 对 文本 处 理 的 强烈 需求 , 不 过 除 此 之 外 还 有 另外 的 重要 理由 (马上 会 讨论 
到 )。 事 实 上， 贝尔 实验 室 专 利 部 门 (Bell Labs Patent Department) 在 UNIX 系统 上 所 
使 用 的 第 一 套 产 品 ， 就 是 进行 文本 处 理 和 编排 工作 的 。 


最 初 的 UNIX 机 器 (Digital Equipment Cofporation PDP-11is) 不 能 运行 大 型 程序 。 要 
完成 复杂 的 工作 , 得 先 将 它 分 割 成 更 小 的 工作 , 再 用 程序 来 完成 这 些 更 小 的 工作 。 某 些 
常见 的 工作 (从 数据 行 中 取出 某 些 字段 、 替 换文 本 ， 等 等 ) 也 常见 于 许多 大 型 项 目 ， 最 
后 就 成 了 标准 工具 。 人 们 认为 这 种 自然 而 生 的 结果 是 件 好 事 :由 于 缺乏 大 型 的 解决 空间 ， 
因而 产生 了 更 小 、 更 简单 、 更 专用 的 程序 。 


许多 人 在 UNIX 的 使 用 上 采用 半 独 立 的 工作 方式 , 重复 套用 彼此 间 的 程序 。 由 于 版 本 之 
间 的 差异 ,而 且 不 需要 标准 化 ,导致 许多 日 常 工具 程序 的 发 展 日 渐 分 歧 。 举 例 来 说 , grep 
在 某 系统 里 使 用 -i 来 表示 “查找 时 忽略 大 小 写 "， 但 在 另 一 个 系统 中 ， 却 使 用 -y 来 代 
表 同 样 的 事 ! 无 独 有 偶 , 这 种 怪事 也 发 生 在 许多 工具 程序 上 。 还 有 , 一 些 常用 的 小 程序 
可 能 会 取 相 同 的 名 字 ， 针 对 某 个 UNIX 版 本 所 编写 的 Shell 程序 ， 不 经 修改 可 能 无 法 在 
另 一 个 版 本 上 执行 。 


最 后 ， 对 常用 标准 工具 组 与 选项 的 需求 终于 明朗 化 , POSIX 标准 即 为 最 后 的 结果 。 现行 
标准 IEEE Std. 1003.1-2004 包 含 了 C 的 库 层 级 的 主题 , 还 有 Shell 语言 与 系统 工具 及 其 
选项 。 


好 消息 是 ,在 这 些 标准 上 所 做 的 努力 有 了 回报 。 现 在 的 商用 UNIX 系统 ， 以 及 可 免费 使 





译注 1: 在 UNIX 系统 中 ， 常 将 “ 主 内 存 ”(main memory) 称 为 核心 (core)， 因 为 在 使 用 半 导 
体 作为 内 存 材 料 之 前 ， 便 是 使 用 核心 (core)。 而 核心 映像 (core image) 就 是 “进程 ” 
(process) 执行 当时 的 内 存 内 容 。 当 进程 发 生 错 误 或 收 到 “信号 ”(signal) 而 终止 执行 
时 ， 系 统 会 将 核心 映像 写 入 一 个 文件 ， 以 作为 调试 之 用 ,这 就 是 所 谓 的 核心 转 储 (core 
dump ) 。 ; | : 

注 3: 系统 文档 分 成 两 个 部 分 : 参考 手册 与 使 用 手册 。 后 者 是 系统 各 功能 的 教学 手册 。 虽 然 把 
整 份 文件 读 完 就 可 能 学 会 UNIX 一 一 事实 上 有 许多 人 (包括 作者 ) 真 的 是 这 么 做 ， 不 
过 现今 的 系统 ， 已 不 再 附 上 打印 好 的 文件 。 
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用 的 同类 型 产品 , 例如 GNU/Linux 与 BSD 衍生 系统 ， 都 兼容 POSIX。 这 样 一 来 ， 学 习 
UNIX 变 得 更 容易 ， 编 写 可 移植 的 Shell 脚本 也 成 为 可 能 ( 详 见 第 14 章 )。 


值得 注意 的 是 ， POSIX 并 非 UNIX 标准 化 的 唯一 成 果 ，POSIX 之 外 仍 有 其 他 标准 。 例 
如 ,欧洲 计算 机 制造 商 协 会 自行 发 起 了 一 套 名 为 X/Open 的 标准 。 其 中 最 受 欢迎 的 是 1988 
年 首 度 出 现 的 XPG4 (X/Open Portability Guide，Fourth Edition)。 另 外 还 有 XPG5，, 其 
更 广为人知 的 名 称 为 UNIX .98 标准 , 或 Single UNIX Specification 。 XPGS 很 大 程度 上 
把 POSIX 纳入 为 一 个 子 集 ， 同 样 深 具 影响 力 ( 注 4)。 


XPG 标 准 在 措辞 上 可 能 不 够 严谨 , 但 其 内 容 却 较为 广泛 , 其 目标 是 将 现存 于 UNIX 系统 
上 实际 用 到 的 各 种 功能 正式 生成 文档 。(POSIX 的 目的 在 于 建立 一 套 正 式 的 标准 ， 让 从 
头 开始 的 实践 者 有 指导 方针 可 以 套用 一 一 即便 是 在 非 UNIX 的 平台 上 。 因 此 ， 许 多 
UNIX 系 统 上 常见 的 功能 , 一 开始 就 排除 在 POSIX 标 准 之 外 )。2001 POSIX 标 准 由 于 纳 
和 人 了 X/Open System Interface Extension (XSI) 而 有 了 双重 身份 ， 也 叫做 XPG6， 这 
是 它 首 度 正式 扩张 POSIX 版 图 。 此 文档 的 特色 在 于 : 让 系统 不 只 兼容 POSIX ， 也 兼容 
于 XSI。 所 以 ， 当 你 在 编写 工具 或 应 用 程序 时 ， 必 须 参 考 的 正式 文件 只 有 一 份 〈 就 叫做 
Single UNIX Standard ) 。 


本 书 自始至终 都 把 重点 放 在 根据 POSIX 标 准 所 定义 的 Shell 语言 与 UNIX 工具 程序 。 重 
点 部 分 也 会 加 入 XSI 定 义 的 说 明 ， 因 为 你 很 可 能 会 用 得 到 。 


1.2 “软件 工具 的 原则 


随 敌 时 间 的 流逝 , 人 们 开发 出 了 一 套 设计 与 编写 软件 工具 的 原则 。 在 本 书 用 来 解决 问题 
的 程序 中 ， 你 将 会 看 到 这 些 原则 的 应 用 示例 。 好 的 软件 工具 应 该 具备 下 列 特点 : 


一 次 做 好 一 件 在 | 
在 很 多 方面 ， 这 都 是 最 重要 的 原则 。 若 程序 只 做 一 件 事 ， 那 么 无 论 是 设计 、 编 写 、 
调试 、 维 护 , 以 及 生成 文件 都 会 容易 得 多 。 举例 来 说 , 对 于 用 来 查找 文件 中 是 否 有 
符合 样式 的 grep 程序 ， 不 应 该 指望 用 它 来 执行 算术 运算 。 
这 个 原则 的 结果 , 自然 就 是 会 不 断 产 生出 更 小 、 更 专用 于 特定 功能 的 程序 , 就 像 专 
业 木 甘 的 工具 箱 里 ， 永 远 会 有 一 堆 专 为 特定 用 途 所 设计 的 工具 。 

处 理 文 本 行 ， 不 要 处 理 二 进 制 数 握 
文本 行 是 UNIX 的 通用 格式 。 当 你 在 编写 自己 的 工具 程序 时 便 会 发 现 , 内 含 文本 行 
的 数据 文件 很 好 处 理 , 你 可 以 用 任何 唾 手 可 得 的 文本 编辑 器 来 编辑 它 , 也 可 以 让 这 





注 4: X/Open 的 出 版 物 列表 可 参见 htip://www.opengroup.org/publications/catalog/。 
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些 数 据 在 网 络 与 各 种 机 器 架构 之 间 传输 。 使 用 文本 文件 更 有 助 于 任何 自 定义 工具 与 
现存 的 UNIX 程序 之 间 的 结合 。 


使 用 正则 表达 式 


正则 表达 式 (regular expression) 是 很 强 的 文本 处 理 机 制 。 了 解 它 的 运作 模式 并 加 
以 使 用 ， 可 适度 简化 编写 命令 脚本 (script) 的 工作 。 


此 外 ， 虽 然 正则 表达 式 多 年 来 在 工具 与 UNIX 版 本 上 不 断 在 变化 ， 但 POSIX 标准 
仅 提供 两 种 正则 表达 式 。 你 可 以 利用 标准 的 库 程 序 进行 模式 匹配 的 工作 。 这样 就 可 
以 编写 出 专用 的 工具 程序 , 用 于 与 grep 一 致 的 正则 表达 式 (POSIX 称 之 为 基本 型 
正则 表达 式 ，Basic Regular Expressions，BRE) ， 或 是 用 于 与 egrep 一致 的 正则 
表达 式 (POSIX 称 之 为 扩展 型 正则 表达 式 , Extended Regular Expressions，ERE ) 。 


身 认 使 用 标 淮 输入 / 葵 出 


在 未 明确 指定 文件 名 的 情况 下 , 程序 默认 会 从 它 的 标准 输入 读 取 数 据 , 将 数据 写 到 
它 的 标准 输出 , 至 于 错误 信息 则 会 传送 到 标准 错误 输出 (这 部 分 将 于 第 2 章 讨论 ) 。 
以 这 样 的 方式 来 编写 程序 ， 可 以 轻松 地 让 它们 成 为 数据 过 滤器 (filter) ， 例 如 , 组 
成 部 分 的 规模 越 大 ， 越 需要 复杂 的 管道 (pipeline) 或 脚本 来 处 理 。 


如 免 万 万 不 人 


软件 工具 的 执行 过 程 不 该 像 在 “聊天 ”(chatty ) 。 不 要 将 “开始 处 理 ”(starting 
processing)、“ 即 将 完成 ”(almost done) 或 是 “处 理 完成 ”(finished 
processing) 这 类 信息 放 进 程序 的 标准 输出 (至少 这 不 该 是 默认 状态 )。 


当 你 有 意 将 一 些 工具 串 成 一 条 管道 时 ， 例 如 : 


tool_1 < datafile | tool_2 | tool_3 | tool_4 > resultfile 


若 每 个 工具 都 会 产生 “ 正 处 理 中 ”(yes Pm working) 这 样 的 信息 并 送 往 管道 ， 那 
么 别 指望 执行 结果 会 像 预 期 的 一 样 。 此 外 , 若 每 个 工具 都 将 自己 的 信息 传送 至 标准 
错误 输出 ， 那 么 整个 屏幕 画面 就 会 布 满 一 堆 无 用 的 过 程 信息 。 在 工具 程序 的 世界 
里 ， 没 有 消息 就 是 好 消息 。 


这 个 原则 其 实 还 有 另外 一 个 含义 。 一 般 来 说 ，UNIX 工具 程序 一 向 遵循 “你 叫 它 做 
什么 ， 你 就 会 得 到 什么 ”的 设计 哲学 。 它 们 不 会 问 “ 你 确定 吗 ? ”(are you sure?) 
这 种 问题 ， 当 用 户 键入 rm somefile，UNIX 的 设计 人 员 会 认为 用 户 知道 自己 在 
做 什么 ， 然 后 毫 无 疑问 地 rm 删除 掉 要 删除 的 文件 ( 注 5)。 


es 


如 果 你 真 觉 得 这 样 不 好 ,rm 的 -i 选项 可 强制 rm 给 你 提示 以 做 确认 , 这 么 一 来 ， 当 你 要 
求 删除 可 疑 文件 时 , rm 便 会 提示 确认 它 。 一直 以 来 , 应 该 “永远 不 要 提示 ”还 是 应 该 “ 永 
远 得 到 提示 ”是 个 争议 的 话题 ， 值 得 用 户 深思 。 
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输出 攀 式 必须 与 可 舵 受 的 答 人 杉 式 一 至 
专业 的 工具 程序 认为 遵循 某 种 格式 的 输入 数据 , 例如 标题 行 之 后 接着 数据 行 , 或 在 
行 上 使 用 某 种 字段 分 隔 符 等 , 所 产生 的 输出 也 应 遵循 与 输入 一 致 的 规则 。 这 么 做 的 
”好 处 是 ， 容 易 将 一 个 程序 的 执行 结果 交 给 另 一 个 程序 处 理 。 


举例 来 说 ，netpbm 程 序 集 ( 注 5) 是 用 来 处 理 以 Portable BitMap (PBM) 格式 保 
存 的 图 像 文件 〈《 注 6) 。 这 些 文件 内 含 bitmapped 图像 ， 并 使 用 定义 明确 的 格式 加 以 
绘制 。 每 个 读 取 PBM 文 件 的 工具 程序 ， 都 会 先 以 某 种 格式 来 处 理 文件 内 的 图 像 ， 然 
后 再 以 PBM 的 格式 写 回 文件 。 这么 一 来 , 便 可 以 组 合 简单 的 管道 来 执行 复杂 的 图 
像 处 理 ， 例 如 先 缩放 影像 后 ， 再 旋转 方向 ， 最 后 再 把 颜色 调 淡 。 


让 工具 去 做 办 难 的 部 分 
虽然 UNIX 程序 并 非 完 全 符合 你 的 需求 ， 但 是 现 有 的 工具 或 许 已 经 可 以 为 你 完成 
90 多 的 工作 。 接 下 来 , 若 有 需要 , 你 可 以 编写 一 个 功能 特定 的 小 型 程序 来 完成 剩 下 
的 工作 。 与 每 次 都 从 头 开始 来 解决 各 个 问题 相 比 ， 这 已 经 让 你 省 去 许多 工作 了 。 


构建 适 定 工具 前 ， 先 独 想 
如 前 所 述 ， 若 现存 系统 里 就 是 没有 需要 的 程序 ， 可 以 花 点 时 间 构 建 满足 所 需 的 工 
具 。 然 而, 动手 编写 一 个 能 够 解决 问题 的 程序 前 , 请 先 停 下 来 想 几 分 钟 。 你 所 要 做 
的 事 ,是 否 有 其 他 人 也 需要 做 ? 这 个 特殊 的 工作 是 否 有 可 能 是 某 个 一 般 问题 的 一 个 
特例 ?如 果 是 的 话 , 请 针对 一 般 问题 来 编写 程序 。 当然, 这 么 做 的 时 伐 , 无 论 是 在 
程序 的 设计 或 编写 上 ， 都 应 该 遵循 前 面 所 提 到 的 几 项 原则 。 


1.3 “小 结 


UNIX 原 为 贝尔 实验 室 的 计算 机 科学 家 所 开发 的 产品 。 由 于 没有 便利 上 的 压力 , 再 加 上 
PDP-11 小 型 计算 机 的 能 力 有 限 , 因而 程序 都 以 小 型 、 优雅 为 圭 泉 。 也 因为 没有 一 利 上 的 
压力 ， 系 统 之 间 并 非 完全 一 致 ， 学 习 上 也 不 太 容易 。 


随 着 UNIX 持续 地 流行 ， 各 种 版 本 陆续 开发 出 来 (尤其 是 衍生 自 System V 和 BSD 的 版 
本 ) ，Shell 脚本 层次 的 可 移植 性 也 日 益 困 难 。 幸 好 ，POSIX 标准 成 熟 后 ， 几乎 所 有 商用 
UNIX 系统 与 免费 的 UNIX 版 本 都 兼容 POSIX。 





注 6: 这 套 程 序 并 非 UNIX 工具 集 的 标准 配备 ， 不 过 GNU/Linux 与 BSD 系统 上 通常 都 会 安 
长 。 其 网 站 位 于 htip://netpbm.sourceforge.net/。 可 按照 Sourceforge 项 目 网 页 的 指示 ， 
下 载 源 代码 。 

广 7; 有 三 种 格式 。 若 你 的 系统 里 有 安装 netPbm， 可 参阅 pnm(5) 手 册页 。 
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之 所 以 会 在 这 里 指出 软件 工具 的 设计 原则 , 主要 是 为 了 提供 开发 与 使 用 UNIX 工 具 集 的 
指导 方针 。 让 软件 工具 的 设计 原则 成 为 思考 习惯 ， 将 有 助 于 编写 简洁 的 Shell 程序 和 正 
确 使 用 UNIX 工具 。 | | 


www.TopSage.com 


第 2 章 


入 门 


当 需 要 计算 机 帮 你 做 些 什么 时 ,最 好 用 对 工具 。 你 不 会 用 文字 编辑 器 来 做 支票 得 的 核对 ， 
也 不 会 用 计算 器 来 写 策划 方案 。 同 理 ， 当 你 需要 程序 语言 协助 完成 工作 时 , 不 同 的 程序 
语言 用 于 不 同 的 需求 。 

Shell 脚本 最 常用 于 系统 管理 工作 ， 或 是 用 于 结合 现 有 的 程序 以 完成 小 型 的 、 特 定 的 工 
作 。 一 旦 你 找 出 完成 工作 的 方法 , 可 以 把 用 到 的 命令 串 在 一 起 , 放 进 一 个 独立 的 程序 或 
脚本 (script) 里 , 此 后 只 要 直接 执行 该 程序 便 能 完成 工作 。 此 外 ,如 果 你 写 的 程序 很 有 
用 , 其 他 人 可 以 利用 该 程序 当 作 一 个 黑 盒 (black box) 来 使 用 , 它 是 一 个 可 以 完成 工作 
的 程序 ， 但 我 们 不 必 知 道 它 是 如 何 完 成 的 。 


本 章 中 ， 我 们 会 先 对 脚本 编程 (scripting) 语言 和 编译 型 (compiled) 语言 做 个 简单 的 
比较 ， 再 从 如 何 编 写 简 单 的 Shell 脚本 开始 介绍 起 。 


2.1 ”脚本 编程 语言 与 编译 型 语言 的 差异 
许多 中 型 、 大 型 的 程序 都 是 用 编译 型 语言 写成 , 例如 Fortran、Ada、Pascal、C、C++ 或 


Java。 这 类 程序 只 要 从 源 代码 (source code) 转换 成 目标 代码 (object code) ， 便 能 直 
接 通过 计算 机 来 执行 ( 注 1)。 


编译 型 语言 的 好 处 是 高 效 ， 缺 点 则 是 : 它们 多 半 运 作 于 底层 ， 所 处 理 的 是 字 节 、 整 数 、 
浮 点 数 或 是 其 他 机 器 层级 的 对 象 。 例 如 , 在 C++ 里 ， 就 很 难 进行 “将 一 个 目录 里 所 有 的 
文件 复制 到 另 一 个 目录 中 ”之 类 的 简单 操作 。 


注 1: ”这 种 说 法 在 Java 上 并 不 完全 正确 ， 不 过 已 相当 接近 我 们 所 说 的 情况 了 。 
22 
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脚本 编程 语言 通常 是 解释 型 (interpreted) 的 。 这 类 程序 的 执行 ,是 由 解释 器 (interpreter) 
读 入 程序 代码 , 并 将 其 转换 成 内 部 的 形式 , 再 执行 ( 注 2)。 请 注意 ,解释 器 本 身 是 一 般 
的 编译 型 程序 。 | 


2.2 ”为 什么 要 使 用 Shell 脚本 


使 用 脚本 编程 语言 的 好 处 是 , 它们 多 半 运 行 在 比 编译 型 语言 还 高 的 层级 , 能够 轻易 处 理 
文件 与 目录 之 类 的 对 象 。 缺 点 是 : 它们 的 效率 通常 不 如 编译 型 语言 。 不 过 权衡 之 下 , 通 
常 使 用 脚本 编程 还 是 值得 的 : 花 一 个 小 时 写成 的 简单 脚本 , 同样 的 功能 用 C 或 C++ 来 编 
写实 现 ,可 能 需要 两 天 , 而 且 一 般 来 说 , 脚本 执行 的 速度 已 经 够 快 了 , 快 到 足以 让 人 忽 
略 它 性 能 上 的 问题 。 脚 本 编程 语言 的 例子 有 awk、Perl、Python、Ruby 与 Shell。 


因为 Shell 似乎 是 各 UNIX 系统 之 间 通 用 的 功能 ， 并 且 经 过 了 POSIX 的 标准 化 。 因 此 ， 
Shell 脚本 只 要 “用 心 写 ”一 次 ， 即 可 应 用 到 很 多 系统 上 。 因 此 ， 之 所 以 要 使 用 Shell 肢 
本 是 基于 : 


简单 修 
Shell 是 一 个 高 级 语言 ， 通 过 它 ， 你 可 以 简洁 地 表达 复杂 的 操作 。 
可 移植 修 
使 用 POSIX 所 定义 的 功能 ， 可 以 做 到 脚本 无 须 修改 就 可 在 不 同 的 系统 上 执行 。 
开发 容易 


可 以 在 短 时 间 内 完成 一 个 功能 强大 又 好 用 的 脚本 。 


2.3 ”一 个 简单 的 脚本 


让 我 们 从 简单 的 脚本 开始 。 假 设 你 想 知道 , 现在 系统 上 有 多 少 人 登录 。who 命 令 可 以 千 
诉 你 现在 系统 有 谁 登录 : 


$ who : 

george pts/2 Dec 31 16:39 {valley-forge.example.com) 
betsy pts/3 Dec 27 11:07 {flags-r-us.example.com) 
benjamin dtlocal Dec 27 17:55 (Kites .example.com) 
jhancock pts/5 Dec 27 17:55 (:32) 

Camus pts/6 Dec 31 16:22 

tolstoy pts/14 Jan 2 06:42 


注 2: 尽管 htip:/foldoc.doc.ic.ac.uk/foldoc/foldoc.cgi?Ousterhout’s+dichotomy 试 图 为 编译 型 
与 脚本 编程 语言 的 差异 下 定义 ， 但 是 人 们 对 此 一 直 很 难 达 成 共识 。 
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在 大 型 的 、 多 用 户 的 系统 上 ， 所 列 出 来 的 列表 可 能 很 长 ， 在 你 能 够 计算 用 户 个 数 之 前 ， 
列表 早已 滚动 出 屏幕 画面 ,因此 每 次 做 这 件 事 的 时 候 , 都 会 让 你 觉得 很 麻烦 ,这 正 是 进 
行 自动 化 的 好 时 机 。 计 算 用 户 总 数 的 方法 尚未 提 到 。 对 此 ， 我 们 可 以 利用 we (字数 计 
算 ) 程序 ， 它 可 以 算出 行 数 (line)、 字 数 (word) 与 字符 数 (character) 。 在 此 例 中 ,我 
们 用 的 是 wc -1， 也 就 是 只 算出 行 数 : 

$ who | wc -1 计算 用 户 个 数 

. 6 
ee 
wc 所 列 出 的 结果 就 是 已 登录 用 户 的 个 数 。 


下 一 步 则 是 将 此 管道 转变 成 一 个 独立 的 命令 。 方法 是 把 这 条 命令 输入 一 个 一般 的 文件 中 ， 
全 全 chmod 为 该 文件 设置 执行 的 权限 ， 如 下 所 示 : 


. $ cat > nusers 建立 文件 ， 使 用 caf 复制 终端 的 输入 


who | wc -1 程序 的 内 容 

^D Ctri-D 表示 end-of-file 
$ chmod +x nusers 让 文件 拥有 执行 的 权限 
$ ./nusers 执行 测试 


6 输出 我 们 要 的 结果 


这 展现 了 小 型 Shell 脚本 的 典型 开发 周期 首先 ， 直 接 在 命令 行 (command line) 上 测 
试 。 然 后 ， et de 再 将 它们 放 进 一 个 独立 的 脚本 里 ， 并 为 
该 脚本 设置 执行 的 权限 。 之 后 ， 就 能 直接 使 用 该 脚本 。 


2.4 自给 自足 的 脚本 : 位 于 第 一 行 的 #! 

当 Shell 执 行 一 个 程序 时 , 会 要 求 UNIX 内 核 启 动 一 个 新 的 进程 (process), 以 便 在 该 进 
程 里 执行 所 指定 的 程序 。 内核 知道 如 何 为 编译 型 程序 做 这 件 事 。 我 们 的 nusers Shell 脚 

本 并 非 编译 型 程序 ， 当 Shell 要 求 内 核 执 行 它 时 ， 内 核 将 无 法 做 这 件 事 ， 并 回应 “rot 

executable format file”( 不 是 可 执行 的 格式 文件 ) 错误 信息 。Shell 收 到 此 错误 信息 时 ， 

就 会 说 “ 啊 哈 , 这 不 是 编译 型 程序 , 那么 一 定 是 Shell 脚 本 ”, 接着 会 启动 一 个 新 的 /bin/ 
hn (标准 Shell) 副本 来 执行 该 程序 。 


当 系 统 只 有 一 个 Shell 时,“ 退回 到 /bin/sh” 的 机 制 非常 方便 。 但 现行 的 UNIX 系统 都 
会 拥有 好 几 个 Shell, .因此 需要 通过 一 种 方式 ,告知 UNIX 内 核 应 该 以 哪个 Shell 来 执行 
所 指定 的 Shell 脚本 。 事 实 上 ， 这 么 做 有 助 于 执行 机 制 的 通用 化 ， 让 用 户 得 以 直接 引用 
任何 的 程序 语言 解释 器 , 而 非 只 是 一 个 命令 Shell。 ht 
行 来 设置 : 在 第 一 人 
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当 一 个 文件 中 开头 的 两 个 字符 是 #:! 时， 内 核 会 扫描 该 行 其 余 的 部 分 ， 看 是 否 存在 可 用 
来 执行 程序 的 解释 器 的 完整 路 径 。( 中 间 如 果 出 现任 何 空白 符号 都 会 略 过 。) 此 外 , 内核 
还 会 扫描 是 否 有 一 个 选项 要 传递 给 解释 器 。 内 核 会 以 被 指定 的 选项 来 引用 解释 器 , 再 搭 
配 命令 行 的 其 他 部 分 。 举 例 来 说 ,假设 有 一 个 csh 脚本 ( 注 3), 名 为 /usr/ucb/ 
whizprog， 它 的 第 一 行 如 下 所 示 : 


#! /bin/csh -f 
再 者 ， 如 果 Shell 的 查找 路 径 (后 面 会 介绍 ) 里 有 /usr/ucb， 当 用 户 键 人 whizprog 
-q /dev/tty01 这 条 命令 ， 内 核 解 释 #! 这 行 后 ， 便 会 以 如 下 的 方式 来 引用 csh: 


/bin/csh -f /usr/ucb/whizprog -q /dev/tty01 


这 样 的 机 制 让 我 们 得 以 轻松 地 引用 任何 的 解释 器 。 例 如 我 们 可 以 这 样 引用 独立 的 awk 程 
序 : 


#! /bin/awk -f 
此 处 是 awk 程 序 


Shell 脚 本 通常 一 开始 都 是 #! /bin/sh。 如 果 你 的 /bin/sh 并 不 符合 POSIX 标 准 , 请 
将 这 个 路 径 改 为 符合 POSIX 标准 的 Shell。 下 面 是 几 个 初级 的 陷阱 (gotchas)， 请 特别 
留意 : 4 


。 ”当今 的 系统 ， 对 #1! 这 一 行 的 长 度 限制 从 63 到 1024 个 字符 (character) 都 有 。 请 
尽量 不 要 超过 64 个 字符 。( 表 2-1 列 出 了 各 系统 的 长 度 限制 。) 

。 ”在 茶 些 系统 上 , 命令 行 部 分 (也 就 是 要 传递 给 解释 器 执行 的 命令 ) ES 
整 路 径 名 称 。 不 过 有 些 系统 却 不 是 这 样 ; 命令 行 的 部 分 会 原封 不 动 地 传 给 程序 。 
此 ， 脚 本 是 否 具 可 移植 性 取决 于 是 盏 有 完整 的 路 径 名 称 。 

。 ” 别 在 选项 (option) 之 后 放置 任何 空白 , 因为 空白 也 会 跟着 选项 一 起 传递 给 被 引用 
的 程序 。 

。 ”你 需要 知道 解释 器 的 完整 路 径 名 称 。 这 可 以 用 来 规避 可 移植 性 问题 , 因为 不 同 的 厂 
商 可 能 将 同样 的 东西 放 在 不 同 的 地 方 (例如 /bin/awk 和 /usr/bin/awk)。 

。 ”一 些 较 旧 的 系统 上 , 内 核 不 具备 解释 #1 的 能 力 , 有 些 Shell 会 自行 处 理 , 这 些 Shell 
对 于 #1! 与 紧 随 其 后 的 解释 器 名 称 之 间 是 否 可 以 有 空白 ， 可 能 有 不 同 的 解释 。 


注 3; /bin/csh 是 C Shell 的 命令 解释 器 ,由 加 州 大 学 伯克利 分 校 所 开发 。 本 书 不 讨论 C Shell 
程序 设计 的 原因 很 多 ， 其 中 最 重要 一 的 点 是 : 就 脚本 的 编写 来 说 ， 大 多 数 人 认为 它 不 是 
个 好 用 的 Shell， 另 一 个 原因 则 是 它 并 未 被 POSIX 标准 化 。 
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表 2-1 列 出 了 各 UNIX 系统 对 于 #1: 行 的 长 度 限 制 (这 些 都 是 通过 经 验 法 则 得 知 的 )。 结 
果 出 乎 意料 : 有 一 半 以 上 的 数字 都 不 是 二 的 次 方 。 


表 2-1: 各 系统 对 帮 行 的 长 度 限制 
平台 : 操作 系统 版 本 和 ee 2 










最 大 长 度 
Apple Power Mac Mac Darwin 7.2 (Mac OS 10.3.2) 512 
Compag/DEC Alpha OSF/1 4.0 1024 
Compag/DEC/HP Alpha OSF/1 5.1 1000 
GNU/Linux 注 Red Hat 6,7, 8, 9; Fedoral 127 
HP PA-RISC and Itanium-2 HP-UX 10, 11 127 
IBM RS/6000 AIX 4.2 255 
Intel x86 FreeBSD 4.4 64 
Intel x86 FreeBSD 4.9, 5.0, 5.1 128 
Intel x86 NetBSD 1.6 63 
Intel x86 OpenBSD 3.2 63 
SGI MIPS IRIX 6.5 255 
Sun SPARC, x86 Solaris 7, 8, 9, 10 1023 
注 : 所 有 架构。 


POSIX 标准 对 #1! 的 行为 模式 保留 未 定义 (unspecified) 状态 。 此 状态 是 “只 要 一 直 保 
持 POSIX 兼容 性 ， 这 是 一 个 扩展 功能 ”的 标准 说 法 。 


本 书 接 下 来 的 所 有 脚本 开头 都 会 有 #1! 行 。 下 面 是 修订 过 的 nusers 程序 ， 


: $ cat Dugerg : 显示 文件 内 容 
#! /bin/sh - 神奇 的 #1 行 
who | we -1 所 要 执行 的 命令 


选项 一 一 表示 没有 Shell 选项 ; 这 是 基于 安全 上 的 考虑 ， 可 避免 某 种 程度 的 欺骗 式 攻 
击 (spoofing attack ) 。 


2.5 ”Shell 的 基本 元 素 


本 节 要 介绍 的 是 , 适用 于 所 有 Shell 脚本 的 基本 元 素 。 通 过 以 交互 的 方式 使 用 Shell， 你 
会 慢 慢 熟悉 的 。 
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2.5.1 命令 与 参数 z 
Shell 最 基本 的 工作 就 是 执行 命令 。 以 互动 的 方式 来 使 用 Shell 很 容易 了 解 这 一 点 : 每 键 
入 一 道 命令 ，Shell 就 会 执行 。 像 这 样 ; 

$ cd work ; ls -1 whizprog.c 


-rwWw-r--r-- 1 tolstoy devel 30252 Jul 9 22:52 whizprog.c 
$ make 、 


~ 


以 上 的 例子 展现 了 UNIX 命令 行 的 原理 。 首 先 ， 格 式 很 简单 ， 以 空白 (Space 键 或 Tab 
键 ) 隔 开 命令 行 中 各 个 组 成 部 分 。 


其 次 , 命令 名 称 是 命令 行 的 第 一 个 项 目 。 通 常 后 面 会 跟着 选项 (option), 任何 额外 的 参 
数 (argument) 都 会 放 在 选项 之 后 。 如 下 的 语法 是 不 可 能 出 现 的 ， 


COMMAND=CD, ARG=WORK 
COMMAND=LISTFILES,MODE=LONG, ARG=WHIZPROG.C 


这 类 语法 多 半 出 现在 正在 设计 UNIX 时 的 传统 大 型 系统 上 。UNIX Shell 的 自由 格式 语法 
在 当时 是 一 大 革新 ， 大 大 增强 了 Shell 脚本 的 可 读 性 。 


第 三 , 选项 的 开头 是 一 个 破 折 号 (或 减 号 ), 后 面 接 着 一 个 字母 。 选项 是 可 有 可 无 的 , 有 
可 能 需要 加 上 参数 (例如 cc -o whizprog whizprog.c)。 不 需要 参数 的 选项 可 以 合 
并 : 例如 ，1s -lt whizprog.c 比 ls -1 -t whizprog.c 更 方便 (后 者 当然 也 可 
以 ， 只 是 得 多 些 录 入 )。 


长 选项 的 使 用 越 来 越 普 遍 ， 特 别 是 标准 工具 的 GNU 版本， 以 及 在 X Window System 
(X11) 下 使 用 的 程序 。 例 如 : 


$ cd whizprog-1.1 

$ patch --verbose --backup -pl < /tmp/whizprog-1.1-1.2-patch 
长 选项 的 开头 是 一 个 破 折 号 还 是 两 个 (如 上 所 示 ), 视 程序 而 定 。(< /tmp/whizprog- 
1.1-1.2-patch 是 一 个 IO 重 定向 。 它 会 使 得 patch 从 /tmp/whizprog-1.1-1.2- 
patch 文 件 而 不 是 从 键盘 读 取 输 入 。1/O 重 定向 也 是 重要 的 基本 概念 之 一 ， 本 章 稍 后 会 
谈 到 ) 。 


以 两 个 破 折 号 (--) 来 表示 选项 结尾 的 用 法 ， 源 自 System V， 不 过 已 被 纳入 POSIX 标 
准 。 自 此 之 后 命令 行 上 看 起 来 像 选 项 的 任何 项 目 , 都 将 一 视 同仁 地 当成 参数 处 理 (例如 ， 
视 为 文件 名 ) 。 


最 后 要 说 的 是 , 分 号 (; ) 可 用 来 分 隔 同一 行 里 的 多 条 命令 。Shell 会 依次 执行 这 些 命令 。 
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如 果 你 使 用 的 是 & 符号 而 不 是 分 号 ， 则 Shell 将 在 后 台 执行 其 前 面 的 命令 ,这 意味 着 ， 
Shell 不 用 等 到 该 命令 完成 ， 就 可 以 继续 执行 下 一 个 命令 。 


Shell 识别 三 种 基本 命令 ， 内 建 命令 、Shell 函数 以 及 外 部 命令 ; 


。 ”内 建 命令 就 是 由 Shell 本 身 所 执行 的 命令 。 有 些 命令 是 由 于 其 必要 性 才 内 建 的 , 例 

如 ca 用 来 改变 目录 ，read 会 将 来 自用 户 (或 文件 ) 的 输入 数据 传 给 Shell 变量 。 

另 一 种 内 建 命令 的 存在 则 是 为 了 效率 , 其 中 最 典型 的 就 是 test 命令 ( 稍 后 在 6.2.4 

节 会 谈 到 ) ， 编 写 脚本 时 会 经 常用 到 它 。 另 外 还 有 IO 命令 ,例如 echo 与 printf。 

。 ”Shell 函数 是 功能 健全 的 一 系列 程序 代码 , 以 Shell 语 言 写 成 , 它们 可 以 像 命令 那样 
引用 。 稍 后 会 在 6.5 节 讨 论 这 个 部 分 。 此 处 ， 我 们 只 需要 知道 ， 它 们 可 以 引用 ， 就 
像 一 般 的 命令 那样 。 

。 ”外 部 命令 就 是 由 Shell 的 副本 (新 的 进程 ) 所 执行 的 命令 ， 基 本 的 过 程 如 下 : 

a. 建立 一 个 新 的 进程 。 此 进程 即 为 Shell 的 一 个 副本 。 

b， 在 新 的 进程 里 ， 在 PATH 变量 内 所 列 出 的 目录 中 ， 和 寻找 特定 的 命令 。/bin:/ 
usr/bin:/usr/X11R6/bin:/usr/1local/bin 为 PATH 变 量 典 型 的 默认 值 。 当 
命令 名 称 含有 和 斜 杠 (/) 符号 时 ， 将 略 过 路 径 查找 步骤 。 

c， 在 新 的 进程 里 ， 以 所 找到 的 新 程序 取代 执行 中 的 Shell 程序 并 执行 

d， 程 序 完成 后 ， 最 初 的 Shell 会 接着 从 终端 读 取 的 下 一 条 命令 ， 或 执行 脚本 里 的 
下 一 条 命令 。 如 图 2-1 所 示 。 


以 上 只 是 基本 程序 。 当 然 , Shell 可 以 做 的 事 很 多 , 例如 变量 与 通 配 字符 的 展开 、 命令 与 
算术 的 替换 等 。 接 下 来 ， 本 书 会 一 一 探讨 这 些 话题 。 





图 2-1: 程序 执行 


2.5.2 ”变量 


变量 (variable) 就 是 为 某 个 信息 片段 所 起 的 名 字 , 例如 first_name 或 Griver_lic_no。 
所 有 程序 语言 都 会 有 变量 ，Shell 也 不 例外 。 每 个 变量 都 有 一 个 值 (value), 这 是 由 你 分 
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给 变量 的 内 容 或 信息 。 在 Shell 的 世界 里 ， 变 量 值 可 以 是 (而且 通常 是 ) 空 值 ， 也 就 
0 这 是 合理 的 ， 也 是 常见 的 、 好 用 的 特性 。 空 值 就 是 null， 本 书 接 下 来 
的 部 分 将 会 经 常用 到 这 个 术语 。 


Shell 变 景 名 称 的 开头 是 一 个 字母 或 下 划 线 符号 , 后 面 可 以 接着 任意 长 度 的 字母 、 数字 或 
下 划 线 符号 。 on 。Shell 变 量 可 用 来 保存 字符 串 值 , 所 能 保存 
的 字符 数 同样 没有 限制 。 Bourne Shell 是 少数 几 个 早期 的 UNIX 程 序 里 , 遵循 不 限制 (no 
arbitrary limit) 设计 原则 的 程序 之 一 。 例 如 : 


$ myvar=this_is a_long_string _ that_does not_mean much 分 配 变 景 值 


$ echo $myvar 打印 变量 值 


this_ is_a long..string_that_ does- _not_mean_rmuch ， 


变量 赋值 的 方式 为 : 先 写 变 量 名 称 ， 紧 接着 = 字符 , 最 后 是 新 值 ， 中 间 完 全 没有 任何 空 
格 。 当 你 想 取出 Shell 变量 的 值 时 ， 和 当 所 赋予 的 值 内 含 
空格 时 ， 请 加 上 引号 : 
first=isaac middle=bashevis last=singer 单行 可 进行 多 次 赋值 
fullname="*isaac bashevis singer" . 值 中 包含 空格 时 使 用 引号 
oldname=$fullname 此 处 不 需要 引号 
如 上 例 所 示 ， 当 变量 作为 第 二 个 变量 的 新 值 时 ， 不 需要 使 用 双 引号 (参见 7.7 节 )， 但 是 
使 用 双 引 号 也 设 关 系 。 不 过 ， 当 你 将 几 个 变量 连接 起 来 时 ， 就 需要 使 用 引号 了 ， 


fullname="$first S$middle $last" 这 里 需要 双 引 号 


2.5.3 简单 的 echo 输出 


这 里 要 看 的 是 echo 命 令 如 何 显示 myvar 变 量 的 值 ， 这 是 很 可 能 会 在 命令 行 里 使 用 到 的 
情况 。 echo 的 任务 就 是 产生 输出 ， 可 用 来 提示 用 户 , 或 是 用 来 产生 数据 供 进一步 处 理 。 


原始 的 echo 命令 只 会 将 参数 打印 到 标准 输出 ,参数 之 间 以 一 个 空格 隔 开 ,并 以 换行 符 


号 (newline) 结尾 。 


$ _ echo Now.is the time for all good men 
Now is the time for all good men 

$ echo to come to the aid of their country. 
to come to the aid of their country. 


不 过 ， 随 着 时 间 的 流逝 ， 有 各 种 版 本 的 echo 开发 出 来 。BSD 版 本 的 echo 看 到 第 一 个 
参数 为 -n 时 ， 会 省 略 结尾 的 换行 符号 。 例 如 (下划线 符号 表示 终端 画面 的 光标 ) ; 


$ _ echo -n "Enter your name: " 显示 提示 
Enter your name: _ 键入 数据 
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注 
八 > 
干 











echo 
合法 
echo [ string ... | 
用 途 
产生 Shell 脚本 的 输出 。 
主要 选项 
无 。 


echo 将 各 个 参数 打印 到 标准 输出 , 参数 之 间 以 一 个 空格 隔 开 , 并 以 换行 符号 
结束 。 作 会 解 释 每 个 字符 串 里 的 转 义 序列 (escape sequences) 。 转 义 序列 可 
用 来 表示 特殊 字符 ， 以 及 控制 其 行为 模式 。 | 

汐 侣 
UNIX 各 族 本 间 二 不 相同 的 行为 模 芒 使 得 echo 的 可 移植 性 变 得 很 困难 , 不 过 
它 仍 是 最 简单 的 一 种 输出 方式 。 
许多 版 本 都 支持 -nn 选项 。 如 有 果 有 支持 , echo 的 输出 会 省 略 最 后 的 换行 符号 。 


这 适合 用 来 打印 提示 字符 事 。 不 过 ， 目 前 echo 符合 POSIX 标 准 的 版 本 并 未 
包含 此 选项 。 











System V 版 本 的 echo 会 解释 参数 里 特殊 的 转 义 序列 〈 稍 后 会 说 明 ) 。 例 如 ，\c 用 来 指 
示 echo 不 要 打印 最 后 的 换行 符号 ， 


$ echo "Enter your Dame : Ne 显示 提示 
Enter your name: _ 键入 数据 


转 义 序列 可 用 来 表示 程序 中 难以 键入 或 难以 看 见 的 字符 。echo 遇 到 转 义 序列 时 ， 会 打 
印 相应 的 字符 。 有 效 的 转 义 序列 如 表 2-2 所 示 。 


表 2-2: echo 的 转 义 序列 


序列 说 明 Se 

\a 获 示 字符 ， 通 常 是 ASCII 的 BEL 字符 

\b 退 格 (Backspace) 

\c | 输出 中 忽略 最 后 的 换行 字符 (Newline)。 2 包括 接 下 
来 的 参数 ， 都 会 被 忽略 掉 (不 打印 ) 

\f 清除 屏幕 (Formfeed) 

\n 换行 (Newline) 
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表 2-2: echo 的 转 义 序列 ( 续 ) 

序列 “站 说 骨 轩 全 
\r 回 车 (Carriage return) 

\t 水 平 制 表 符 (Horizontal tab) 
\v 垂直 制 表 符 (Vertical tab) 
\\ 反 斜 杠 字符 


\odaaa 将 字符 表示 成 1 到 3 位 的 八进制 数值 


实际 编写 Shell 脚本 的 时 候 ，\a 序 列 通常 用 来 引起 用 户 的 注意 ; \oddaa 序 列 最 有 用 的 地 
方 ， 就 是 通过 送出 终端 转 义 序列 进行 (非常 ) 原始 的 光标 操作 ， 但 是 不 建议 这 么 做 。 


由 于 很 多 系统 默认 以 BSD 的 行为 模式 来 执行 echo, 所 以 本 书 只 会 使 用 它 的 最 简单 形式 。 
比较 复杂 的 输出 ， 我 们 会 使 用 printf。 


2.5.4 ”华丽 的 printf 输出 

由 于 echo 有 版 本 上 的 差异 ,所 以 导致 UNIX 版 本 间 可 移植 性 的 头疼 问题 。 在 POSIX 标 
准 化 的 首次 讨论 中 ， 与 会 成 员 无 法 在 如 何 标 准 化 echo 上 达到 共识 ， 便 提出 折 囊 方案 。 
虽然 echo 是 POSIX 标准 的 一 部 分 , 但 该 标准 却 未 说 明 当 第 一 个 参数 是 -n 或 有 任何 参 
数 包含 转 义 序列 的 行为 模式 。 取 而 代 之 的 是 ， 将 其 行为 模式 保留 为 实现 时 定义 
(implementation-defined); 也 就 是 说 , 各 厂商 必须 提供 说 明文 件 , 描述 其 echo 版 本 的 
做 法 ( 注 4)。 事 实 上 ， 只 要 是 使 用 最 简单 的 形式 ,其 echo 的 可 移植 性 不 会 有 问题 。 相 
对 来 看 ，Ninth Edition Research UNIX 系统 上 所 采用 的 printf 命令 ， 比 echo 更 灵 
活 ， 却 也 更 复杂 。 


printf 命 令 模仿 C 程 序 库 (library) 里 的 printf () 库 程序 (library routine) 。 它 几乎 
复制 了 该 函数 所 有 的 功能 ( 见 printf(3) 的 在 线 说 明文 档 ), 如 果 你 曾 使 用 C、C++、awk、 
Perl、Python 或 Tcl 写 过 程序 ,对 它 的 基本 概念 应 该 不 陌生 。 当 然 , 它 在 Shell 层级 的 版 
本 上 ， 会 有 些 差异 。 


如 同 echo 命令 ，printfE 命令 可 以 输出 简单 的 字符 串 ; 


printf "Hello, world\n" 


你 应 该 可 以 马上 发 现 ， 最 大 的 不 同 在 于 : printf 不 像 echo 那样 会 自动 提供 一 个 换行 
符号 。 你 必须 显 式 地 将 换行 符号 指定 成 \n。printf 命 令 的 完整 语法 分 为 两 部 分 : 


printf format-string [arguments ...] 
注 4: 值得 玩味 的 是 ， 现 行 版 本 的 标准 中 ， 说 明 echo 在 本 质 上 等 同 于 System V 版 本 ， 后 者 


会 处 理 其 参数 中 的 转 义 序列 ， 但 不 处 理 -n。 
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第 一 部 分 是 一 个 字符 串 ， 用 来 描述 输出 的 排列 方式 , 最 好 为 此 字符 串 加 上 引号 。 此 字符 
串 包 含 了 按 字面 显示 的 字符 (characters to be printed literally) 以 及 格式 声明 (format 
Specifications ) ， 后 者 是 特殊 的 占 位 符 (placeholders)， 用 来 描述 如 何 显示 相应 的 参数 


(argument ) 。 


第 二 部 分 是 与 格式 声明 相对 应 的 参数 列表 (argument list) , 例如 一 系列 的 字符 串 或 变量 
值 。( 如 果 参 数 的 个 数 比 格式 声明 还 多 ， 则 printf 会 循环 且 依 次 地 地 使 用 格式 字符 串 
里 的 格式 声明 ， 直 到 处 理 完 参数 )。 格 式 声明 分 成 两 部 分 : 百分比 符号 (%) 和 指示 符 
(specifier) 。 i (format specifier) 有 两 个 ，%s 用 于 字符 串 ， 而 sa 
用 于 十 进 制 整数 。 


格式 字符 串 中 ， 一般 字 符 会 按 字面 显示 。 转 义 序列 则 像 echo 那样 ， 解 释 后 再 输出 成 相 
应 的 字符 。 格 式 声 明 以 符号 开头 ,并 以 定义 的 字母 集中 的 一 个 来 结束 ， 用 来 控制 相应 
参数 的 输出 。 例 如 ，%s 用 于 字符 串 的 输出 : 


$ printf "The firet program alwayes prints :%B，%BlINnn Hello world 
The first program always prints 'Hello, world!! 


printf 的 所 有 详细 说 明 见 7.4 节 。 


2.5.5 ”基本 的 yo 重 定向 


标准 输入 /输出 {standard IO， 注 5) 可 能 是 软件 设计 原则 里 最 重要 的 概念 了 。 这 个 概 
念 就 是 程序 应 该 有 数据 的 来 源 端 、 数据 的 目的 端 (数据 要 去 的 地 方 ) 以 及 报告 问题 的 
地 方 ， 它 们 分 别 被 称 为 标准 输入 (standard input)、 标准 输出 (standard output) 以 及 
标准 错误 输出 (standard error)。 程 序 不 必 知 道 也 不 用 关心 它 的 输入 与 输出 背后 是 什么 
设备 : 是 磁盘 上 的 文件 、 终 端 、 磁 带 机 、 网 络 连 接 或 是 另 一 个 执行 中 的 程序 ! 当 程序 启 
动 时 ， 可 以 预期 的 是 ,标准 输出 入 都 已 打开 ， 且 已 准备 好 供 其 使 用 。 


许多 UNIX 程序 都 遵循 这 一 设计 原则 。 默认 的 情况 下 ,它们 会 读 取 标准 输入 、 写 入 标准 
输出 ， 并 将 错误 信息 传递 到 标准 错误 输出 。 这 类 程序 常 叫 做 过 滤器 (filter) ， 你 马上 就 
会 知道 这 么 叫 的 原因 。 默认 的 标准 输入 、 标准 输出 以 及 标准 错误 输出 都 是 终端 , 这 点 可 
通过 cat 程序 得 知 : 


$ cat 未 指定 任何 参数 ， 读 取 标 准 输入 ， 写 入 标准 输出 
now ia the time 由 用 户 键入 
now is the time 由 cat 返回 


for all good .men 
for all good men 
to come to the aid of their country 





注 5: 此 处 的 Standard I/O 请 不 要 与 C 程 序 库 的 standard 1/O 程序 库 混 清 了 ， 后 者 的 接口 定义 
于 <stdio.h>， 不 过 此 程序 库 的 工作 一 样 是 提供 类 似 的 概念 给 CC 程序 使 用 。 
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to come to the aid of their country 

^D Ctri-D， 文 件 结尾 
你 可 能 想 要 知道 ， 是 谁 蔡 执 行 中 的 程序 初始 化 标准 输入 、 输 出 及 错误 输出 的 呢 ? 毕竟 ， 
总 应 该 有 人 来 夫 执 行 中 的 程序 打开 这 些 文件 ， 甚 至 是 让 用 户 在 登录 后 能 够 看 到 交互 的 
Shell 界面 。 


答案 就 是 在 你 登录 时 ， UNIX 便 将 默认 的 标准 输入 、 输出 及 错误 输出 安排 成 你 的 终端 。 
IO 重 定向 就 是 你 通过 与 终端 交 < 互 ,或 是 在 Shell 脚 本 里 设置 ， 重新 安排 从 哪里 输入 或 输 
出 到 哪里 。 


2.5.5.1 重 定 向 与 管道 
Shell 提供 了 数 种 语法 标记 ,可 用 来 改变 默认 IO 的 来 源 端 与 目的 端 。 此 处 会 先 介绍 基本 
用 法 ， 稍 后 再 提供 完整 的 说 明 。 让 我 们 由 浅 入 深 地 依次 介绍 如 下 : 


以 < 改变 奈 恰 答 人 
program < file 可 将 program 的 标准 输入 修改 为 file: 
tr -d '\r' < dos-file.txt ... 
以 > 改变 杰 淮 输出 
program > 全 le 可 将 program 的 标准 输出 修改 为 file: 
tr -Q '\r’'’ < dos-file.txt > UNIX- file. txt 
这 条 命令 会 先 以 tr 将 dos-file.txt 里 的 ASCIIl carriage-return ( 回 车 ) 删除 ， 
再 将 转换 完成 的 数据 输出 到 UNIX-file.txt。dos-file.txt 里 的 原始 数据 不 会 
有 变化 。(tr 命令 在 第 5 章 有 完整 的 说 明 。) 


> 重 定向 符 (redirector) 在 目的 文件 不 存在 时 , 会 新 建 一 个 。 然 而 ,如果 目 的 文件 
已 存在 ， 它 就 会 被 覆盖 掉 ， 原 本 的 数据 都 会 丢失 。 

以 >> 附加 到 文件 
program >> file 可 将 program 的 标准 输出 附加 到 file 的 结尾 处 。 
如 同 >, 如 果 目 的 文件 不 存在 , >> 重 定向 符 便 会 新 建 一 个 。 然而, 如 果 目 的 文件 存 
在 ， 它 不 会 直接 覆盖 掉 文 件 ， 而 是 将 程序 所 产生 的 数据 附加 到 文件 结尾 处 


for f in dos-file*.txt 
Qo 

tr -d '\r' < $f >> big-UNIX-file.txt 
done 


(for 循环 的 介绍 详 见 6.4 节 。) 
以 | 建立 管 遵 
program1l | Program2 可 将 programl 的 标准 输出 修改 为 program2 的 标准 输入 g 
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虽然 < 与 > 可 将 输入 与 输出 连接 到 文件 ， 不 过 管道 (pipeline) 可 以 把 两 个 以 土 执 
行 中 的 程序 衔接 在 一 起 。 第 一 个 程序 的 标准 输出 可 以 变 成 第 二 个 程序 的 标准 输入 。 
这 么 做 的 好 处 是 , 管道 可 以 使 得 执行 速度 比 使 用 临时 文件 的 程序 快 上 十 倍 。 本 书 中 
有 相当 多 篇 幅 都 是 在 讨论 如 何 将 各 类 工具 串 在 一 起 , 置 人 越 来 越 复杂 且 功 能 越 来 越 
强大 的 管道 中 。 例 如 : 


tr -NMr' < dos-file.txt | sort > UNIX-file.txt 


这 条 管道 会 先 删除 输入 文件 内 的 回 车 字符 , 在 完成 数据 的 排序 之 后 , 将 结果 输出 到 
目的 文件 。 



















tr 






tr [ options ] source-char-list replace-char-list 
用 途 
转换 字符 。 例 如 ， 将 大 写字 符 转 换 成 小 写 。 选 项 可 让 你 指定 所 要 删除 的 字符 ， 
以 及 将 一 串 重 复出 现 的 字符 浓缩 成 一 个 。 
常用 选项 
-C 
取 source-char-1list 的 反 义 。tz 要 转换 的 字符 ， 变 成 未 列 在 source- 
char-list 中 的 字符 。 此 选项 通常 与 -d 或 -s 配合 使 用 。 
-C 
与 -Cc 相似, 但 所 处 理 的 是 字符 (可 能 是 包含 多 个 字 节 的 宽 字 符 ), 而 非 二 
进 制 的 字 节 值 。 参 者 “警告 ”的 说 明 。 
-Q 
自 标 准 输 入 删除 source-char-1ist 里 所 列 的 字符 ， 而 不 是 转 撞 它们 。 
-S 
浓缩 重复 的 字符 。 如 果 标准 输入 中 连续 重复 出 现 source-char-1list 里 
所 列 的 字符 ， 则 将 其 浓缩 成 一 个 。 
语 为 模式 z 
如 同 过 滤器 : 自 标准 输入 读 取 字 符 ， 再 将 结果 写 到 标准 输出 。 任 何 输入 字符 
只 要 出 现在 source-char-1ist 中 ,就 会 置换 成 replace-char-list 里 相应 
的 字符 。POSIX 风 格 的 字符 与 等 效 的 字符 集 也 适用 , 而 且 tr 还 支持 replace- 
char-list 中 重复 字符 的 标记 法 。 相 关 细 节 请 参考 tr(1) 的 在 线 说 明文 档 。 


根据 POSIX 标 准 的 定义 ,-c 处 理 的 是 二 进 制 字 节 值 ,而 -C 处 理 的 是 现行 locale 
所 定义 的 字符 。 直 到 2005 年 初 ， 仍 有 许多 系统 不 支持 -C 选项。 
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使 用 UNIX 工 具 程 序 时 , 不 妨 将 数据 想象 成 水 管 里 的 水 。 未 经 处 理 的 水 , 将 流向 净 水 厂 ， 
经 过 各 类 滤器 的 处 理 ， 最 后 产生 适合 人 类 饮用 的 水 。 


同样 , 编写 脚本 时 , 你 通常 已 有 某 种 输入 格式 定义 下 的 原始 数据 , 而 需要 处 理 这 些 数据 
后 产生 结果 。( 处 理 一 词 表 未 很 多 意思 , 例如 排序 、 加 和 与 平均 、 格式 化 以 便于 打印 , 等 
等 。) 从 最 原始 的 数据 开始 ， 然 后 构造 一 条 管道 ， 一 步 一 步 地 ， 管 道中 的 每 个 阶段 都 会 
让 数据 更 接近 要 的 结果 。 


如 果 你 是 UNIX 新手, 可 以 把 < 与 > 想象 成 数据 的 漏斗 (funnels) 一 一 数据 会 从 大 的 一 
端 进 入 ， 由 小 的 一 端 出 来 。 











注意 : 构造 管道 时 ， 应 该 试 着 让 每 个 阶段 的 数据 量变 得 更 少 。 换 句 话说， 如 果 你 有 两 个 要 完成 的 
步骤 与 先后 次 序 无 关 , 你 可 以 把 会 让 数据 量变 少 的 那 一 个 步 允 放 在 管道 的 前 面 。 这 么 做 可 
以 提升 脚本 的 整体 性 能 , 因为 UNIX 只 需要 在 两 个 程序 间 移 动 少 的 数据 量 , 每 个 程序 要 做 

的 事 也 比较 少 。 


例如 ， 使 用 sort 排序 之 前 ， 先 以 grep 找 出 相关 的 行 ， 这样 可 以 让 sort 少 做 些 事 。 








2.5.5.2 特殊 文件 : /dev/null 与 /dev/tty . 


UNIX 系统 提供 了 两 个 对 Shell 编程 特别 有 用 的 特殊 文件 。 第 一 个 文件 /Gev/nul1， 就 
是 大 家 所 熟知 的 位 桶 (bit bucket) 。 传 送 到 此 文件 的 数据 都 会 被 系统 丢掉 。 也 就 是 说 ， 
当 程序 将 数据 写 到 此 文件 时 , 会 认为 它 已 成 功 完成 写 和 数据 的 操作 , 但 实际 上 什么 事 都 
没 做 。 如 果 你 需要 的 是 命令 的 退出 状态 ( 见 6.2 节 ), 而 非 它 的 输出 ， 此 功能 会 很 有 用 。 
例如 ， 测 试 一 个 文件 是 否 包含 某 个 模式 (Pattern ) : 


if grep pattern myfile > /dev/null 


then 
找到 模式 时 
else 
找 不 到 模式 时 
£1 


相对 地 , 读 取 /dev/null 则 会 立即 返回 文件 结束 符号 (end-of-file)。 读 取 /dev/null 
的 操作 很 少 会 出 现在 Shell 程序 里 ， 不 过 了 解 这 个 文件 的 行为 模式 还 是 非常 重要 的 。 


另 一 个 特殊 文件 为 /dev/tty。 当 程序 打开 此 文件 时 , UNIX 会 自动 将 它 重 定向 到 一 个 终 
端 [一 个 实体 的 控制 台 (console) 或 串 行 端口 (serial port) ， 也 可 能 是 一 个 通过 网 络 与 
窗口 登录 的 伪 终端 (pseudoterminal) ] 再 与 程序 结合 。 这 在 程序 必须 读 取 人 工 输入 时 ( 例 
如 密码 ) 特别 有 用 。 此 外 ， 用 它 来 产生 错误 信息 也 很 方便 ， 只 是 比较 少 人 这 么 做 : 
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.printf "Enter new password: ， 提示 输入 | 
stty -echo 关闭 自动 打印 输入 字符 的 功能 
read pass < /dev/tty 读 取 密 码 
printf ”Enter again: " 提示 再 输入 一 次 
read pass2 < /dev/tty.: 再 读 取 一 次 以 确认 


stty echo 别 忘 了 打开 自动 打印 输入 字符 的 功能 


stty (set tty) 命令 用 来 控制 终端 (或 窗口 ， 注 6) 的 各 种 设置 。-echo 选项 用 来 关闭 
自动 打印 每 个 输入 字符 的 功能 ，stty echo 用 来 恢复 该 功能 


2.5.6 ”基本 命令 查找 


之 前 , 我 们 曾 提 及 Shell 会 沿 着 查找 路 径 $PATH 来 寻找 命令 。$PATH 是 一 个 以 冒号 分 隔 
的 目录 列表 ， 你 可 以 在 列表 所 指定 的 目录 下 找到 所 要 执行 的 命令 。 所 找到 的 命令 可 能 是 
编译 后 的 可 执行 文件 ， 也 可 能 是 Shell 脚本 ， 从 用 户 的 角度 来 看 ， 两 者 并 无 不 同 。 


默认 路 径 (default path) 因 系 统 而 异 , 不 过 至 少 包含 /bin 与 /usr/bin, 或 许 还 包含 
存放 XX Windows 程 序 的 /usr/X11R6/bin, 以 及 供 本 地 系统 管理 人 员 安 装 程序 的 /usr/ 
local/bin。 例 如 ; 


$ echo $PATH 
/bin: /usr/bin:/usr/X11R6/bin: /usr/local/bin 


名 称 为 bin 的 目录 用 来 保存 可 执行 文件 ，bin 是 binary 的 缩写 。 你 也 可 以 直接 把 bin 解释 
成 相应 的 英文 字义 一 一 存储 东西 的 容器 ， 这 里 所 存储 的 是 可 执行 行 的 程序 。 


如 果 你 要 编写 自己 的 脚本 , 最 好 准备 自己 的 bin 目 录 来 存放 它们 , 并 县 让 Shell 能 够 自动 
找到 它们 。 这 不 难 ， 只 要 建立 自己 的 bin 目录 ， 并 将 它 加 入 $PATH 中 的 列表 即 可 ， 


$ ca 切换 到 home 目录 
$ mkdir bin 建立 个 人 bin 目录 
$ mv nusers bin 将 我 们 的 脚本 署 人 该 目录 
$ PRATH=S$PRATH:SHOME/bjin 将 个 人 的 bin 目录 附加 到 PATH 
$ nugers 试 试看 
6 Shel1 有 找到 并 执行 它 


要 让 修改 永久 生效 ， 在 .profile 文 件 中 把 你 的 bin 目录 加 入 $PATH， 而 每 次 登录 时 
Shell 都 将 读 取 .profile 文 件 ， 例 如 ， 


”PATH=SPATH:SHOMEVPin 


注 6: ，stty 可 能 是 现 有 的 UNIX 命令 中 ， 最 怪异 且 最 复杂 的 一 个 。 相 关 细 节 可 参考 st1y(1) 的 
manpage 或 是 《UNIX in a Nutshell》 这 本 书 。 
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$PATH 里 的 空 项 目 (empty component) 表示 当前 目录 (current directory )。 空 项 目 位 

于 路 径 值 中 间 时 ， 可 以 用 两 个 连续 的 冒号 来 表示 。 如 果 将 冒号 直接 置 于 最 前 端 或 尾 端 ， 

可 以 分 别 表示 查找 时 最 先 查找 或 最 后 查找 当前 目录 ; 
PATH=:/bin:/usr/bin:/usr/X11lR6/bin:/usr/local/bin 先 找 当前 目录 


PATH=/bin: /usr/bin:/usr/X11R6/bin: /usr/local/bin: 最 后 找 当前 目录 
PATH=/bin: /usr/bin:/usr/X11R6/bin::/usr/local/bin 当前 目录 居中 


如 果 你 希望 将 当前 目录 纳入 查找 路 径 (search path), 更 好 的 做 法 是 在 $SPATH 中 使 用 点 
号 (dot); 这 可 以 让 阅读 程序 的 人 更 清楚 程序 在 做 什么 。 


测试 过 程 中 , 我 们 发 现 同一 个 系统 有 两 个 版 本 并 未 正确 支持 $SPATH 结 尾 的 空 项 目 , 因此 
空 项 目 在 可 移植 性 上 有 点 问题 。 


注意 : 一 般 来 说 , 你 根本 就 不 应 该 在 查找 路 径 中 放 进 当前 目录 ， 因 为 这 会 有 安全 上 的 问题 ( 进 一 
步 的 信息 请 参考 第 15 章 )。 之 所 以 会 提 到 空 项 目 , 只 是 为 了 让 你 了 解 路 径 查找 的 运作 模式 。 


2.6 ”访问 Shell 脚本 的 参数 


所 谓 的 位 置 参 数 (positional parameters ) 指 的 也 就 是 Shell 脚 本 的 命令 行 参数 (command- 
line arguments)。 在 Shell 函数 里 ， 它 们 同时 也 可 以 是 函数 的 参数 。 各 参数 都 由 整数 来 
命名 。 基 于 历史 的 原因 ， 当 它 超过 9， 就 应 该 用 大 括号 把 数字 框 起 来 : 


echo first arg is $1 
echo tenth arg is ${10) 


此 外 , 通过 特殊 变量 , 我 们 还 可 以 取得 参数 的 总 数 , 以 及 一 次 取得 所 有 参数 。 相 关 细 节 
参见 6.1.2.2 节 。 


假设 你 想 知 道 某 个 用 户 正 使 用 的 终端 是 什么 , 你 当然 可 以 直接 使 用 who 命 令 , 然后 在 输 
出 中 自己 慢 慢 找 。 这 么 做 很 麻烦 又 容易 出 错 一 一 特别 是 当 系 统 的 用 户 很 多 的 时 候 。 你 
想 做 的 只 不 过 是 在 who 的 输出 中 找到 那 位 用 户 , 这 个 时 候 你 可 以 用 grep 命 令 来 进行 查 
找 操作 ， 它 会 列 出 与 第 一 个 参数 (所 指定 的 模式 ) 匹配 的 每 一 行 。 假 设 你 要 找 的 是 用 户 
betsy: 

$ who | grep betsy betsy 在 哪 ? 

betsy pts/3 Dec 27 11:07 (flags-r-us.example .com) 
知道 如 何 寻找 特定 的 用 户 后 , 我 们 可 以 将 命令 放 进 脚本 里 , 这 段 脚本 的 第 一 个 参数 就 是 
我 们 要 找 的 用 户 名 称 : 
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$ cat > findueer 建立 新 文件 
#1 /bin/sh 


# findueer --- 察看 第 一 个 参数 所 指定 的 用 户 是 否 登录 


who | grep $1 


^D 以 Ena-of-file 结 尾 

$ chmod +x finduser 设置 执行 权限 

$ ./finduser betsy . 测试 , 寻找 betsy 

betsy pts/3 Dec 27 11:07 (fljags-r-us.example.com) 
$ ./finduser benjamin 再 找 找 好 友 Ben 

benjamin dtlocal Dec 27 17:55 (kites .example.com) 

s mv finduser $HOME/bin 将 这 个 文件 存 进 自 己 的 bin 目录 


以 # finduser.. .开头 的 这 一 行 是 一 个 注释 (comment) 。Shell 会 忽略 由 # 开 头 的 每 一 
行 。( 相 信 你 也 已 经 发 现 : 当 Shell 读 取 脚 本 时 ， 前 面 所 提 及 的 # :! 行 也 同样 扮演 注释 的 
角色 。) 为 你 的 程序 加 上 注释 绝对 不 会 错 。 这 样 可 以 帮助 其 他 人 或 是 自己 在 一 年 以 后 还 
能 够 了 解 你 在 做 什么 以 及 为 什么 要 这 么 做 。 等 到 我 们 觉得 程序 能 够 运行 无 误 时 , 就 可 以 
把 它 移 到 个 人 的 bin 目录 。 


这 个 程序 还 没有 达到 完美 。 要 是 我 们 没 给 任何 参数 ， 会 发 生 什么 事 ? 


$ finduser 
Usage: grep [OPTION]... PATTERN [FILE]... 
Try :grep --help' for more information. 


我 们 将 在 6.2.4 节 看 到 ， 如 何 测试 命令 行 参数 数目 ， 以 及 在 参数 数目 不 符 时 ， 如 何 采取 
适当 的 操作 。 


2.7 ”简单 的 执行 跟踪 


程序 是 人 写 的 , 难免 会 出 错 。 想 知道 你 的 程序 正在 做 什么 ， 有 个 好 方法 , 就 是 把 执行 跟 
踪 (execution tracing) 的 功能 打开 。 这 会 使 得 Shell 显示 每 个 被 执行 到 的 命令 ， 并 在 前 
面 加 上 “+”: 一 个 加 号 后 面 跟着 一 个 空格 。( 你 可 以 通过 给 Shell 变 量 PS4 赋 一 个 新 值 以 
改变 打印 方式 。) 


例如 ; 
$ sh -x nusers 打开 执行 跟踪 功能 
+ who 被 跟踪 的 命令 
+ WC -1 
7 实际 的 输出 
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你 可 以 在 脚本 里 ， 用 set -x 命令 将 执行 跟踪 的 功能 打开 ， 然后 再 用 set +x 命令 关闭 
它 。 这 个 功能 对 复杂 的 脚本 比较 有 用 ， 不 过 这 里 只 用 简单 的 程序 来 做 说 明 : 


$ cat > tracel.sh 建立 脚本 

#! /bin/sh 

set -x 打开 跟踪 功能 
echo lst echo 做 些 事 

Set +X 关闭 跟踪 功能 
echo 2nd echo 再 做 些 事 

^D 以 end-of-file 结尾 
$ chmod +x tracel.sh 设置 执行 权限 

$ ./tracel.sh 执行 

+ echo lst echo 被 跟踪 的 第 一 行 
lst echo 命令 的 输出 

+ Set +X 被 跟踪 的 下 一 行 
2nd echo 下 一 个 命令 的 输出 


执行 时 , set -x 不 会 被 跟踪 , 因为 跟踪 功能 是 在 这 条 命令 执行 后 才 打 开 的 。 同 理 , set 
+X 会 被 跟踪 ,因为 跟踪 功能 是 在 这 条 命令 执行 后 才 关 闭 的 。 最 后 的 echo 命令 不 会 被 跟 
踪 ， 因 为 此 时 跟踪 功能 已 经 关闭 。 


2.8 ”国际 化 与 本 地 化 


编写 软件 给 全 世界 的 人 使 用 , 是 一 项 艰难 的 挑战 。 整 个 工作 通常 可 以 分 成 两 个 部 分 : 国 
际 化 (internationalization， 缩写 为 i18n， 因 为 这 个 单字 在 头 尾 之 间 包 含 了 18 个 字母 )， 
.以 及 本 地 化 (localization， 缩 写 为 110n, 理由 同 前 )。 


当 国 际 化 作为 设计 软件 的 过 程 时 , 软件 无 须 再 修改 或 重新 编译 程序 代码 , 就 可 以 给 特定 
的 用 户 群 使 用 。 至少 这 表示 ,你 必须 将 “所 要 显示 的 任何 信息 ”包含 在 特定 的 程序 库 调 
用 里 ,执行 期 间 由 此 “程序 库 调 用 ”人 负责 在 消息 目录 (message catalog) 中 找到 适当 的 
译文 。 一 般 来 说 , 消息 的 译文 就 放 在 软件 附带 的 文本 文件 中 , 再 通过 gencat 或 msgfmt 
编译 成 紧凑 的 二 进 制 文件 , 以 利 快速 查询 。 编译 后 的 信息 文件 会 被 安装 到 特定 的 系统 目 
录 树 中 ， 例 如 GNU 的 /usr/share/locale 与 /usr/local/share/locale, 或 商用 
UNIX 系统 的 /usr/1ipb/nls 或 /usr/1ib/locale。 详情 可 见 setlocale(3)、catgets(3C) 
与 gettext(3C) 等 手册 页 面 (manual pages)。 


当 本 地 化 作为 设计 软件 的 过 程 时 , 目的 是 让 特定 的 用 户 群 得 以 使 用 软件 。 在 本 地 化 的 过 
程 可 能 需要 翻译 软件 文件 和 软件 所 输出 的 所 有 文字 , 可 能 还 必须 修改 程序 输出 中 的 货币 、 
日 期 、 数 字 、 时 间 、 单 位 换算 等 格式 。 文 字 所 使 用 的 字符 集 (character set) 可 能 也 得 
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变动 (除非 使 用 通用 的 Unicode 字 符 集 ), 并 且 使 用 不 同 的 字体 。 对 某 些 语言 来 说 ,书写 
方向 (writing direction) 也 可 能 需要 变动 。 


UNIX 的 世界 中 , ISO 程序 语言 标准 与 POSIX 对 此 类 问题 的 处 理 都 提供 了 有 限度 的 支持 ， 
不 过 要 做 的 事 还 很 多 ， 而 且 各 种 UNIX 版 本 之 间 差 异 极 大 。 对 用 户 而 言 ， 用 来 控制 让 哪 
种 语言 或 文化 环境 生效 的 功能 就 叫做 locale， 你 可 以 通过 如 表 2-3 所 示 的 一 个 或 多 个 环 
境 变 量 (environment variable) 来 设置 它 。 


表 2-3: 各 种 Locale 环境 变量 


名 称 ”说明 

LANG 未 设置 任何 LC_xxx 变量 时 所 使 用 的 默认 值 

LALL, 用 来 覆盖 掉 所 有 其 他 LC_xxx 变量 的 值 

LC_COLLATE 使 用 所 指定 地 区 的 排序 规则 

LC_CTYPE 使 用 所 指定 地 区 的 字符 集 (字母 、 数 字 、 标 点 符号 等 ) 
LC_MESSAGES 使 用 所 指定 地 区 的 响应 与 信息 ， 仅 POSIX 适用 
LC_MONETARY 使 用 所 指定 地 区 的 货币 格式 

LC_NUMERIC 使 用 所 指定 地 区 的 数字 格式 

LC_TIME 使 用 所 指定 地 区 的 日 期 与 时 间 格 式 


一 般 来 说 ， 你 可 以 用 LC_ALL 来 强制 设置 单一 locale; 而 LANG 则 是 用 来 设置 locale 的 
默认 值 。 大 多 数 时 候 , 应 避免 为 任何 的 LC_xxx 变 量 赋值 。 举例 来 说 , 当 你 使 用 sort 命 
令 时 , 可 能 会 出 现 要 你 正确 设置 LC_COLLATE 的 信息 , 因为 这 个 设置 可 能 会 跟 LC_CTYPE 
的 设置 相 冲 突 ， 也 可 能 在 LC_ALL 已 设置 的 情况 下 完全 被 忽略 。 


ISO C 与 C++ 标准 只 定义 了 C 这 个 标准 的 locale 名 称 : 用 来 选择 传统 的 面向 ASCII 的 行 
为 模式 。POSIX 标准 则 另外 定义 了 POSIX 这 个 locale 名 称 ， 其 功能 等 同 于 C。 


除 c 与 POSIX 外 , locale 名 称 并 未 标准 化 。 不过, 有 很 多 厂商 采用 类 似 但 不 一 致 的 名 称 。 
locale 名 称 带 有 语言 和 地 域 的 意义 ， 有 时 其 至 会 加 上 一 个 内 码 集 (codeset) 与 一 个 修饰 
符 (modifier) 。 一 般 来 说 ， 它 会 被 表示 成 ISO 639 语言 代码 (language code， 注 7) 的 
两 个 小 写字 母 、 一 个 下 划 线 符号 与 ISO 3166-1 国家 代码 (country code， 注 8) 的 两 个 
大 写字 母 , 最 后 可 能 还 会 加 上 一 个 点 号 、 字 符 集 编码 、@ 符 号 与 修饰 词 (modifier word ) 。 
语文 名 称 有 了 时 也 会 用 上 。 你 可 以 像 下 面 这 样 列 出 系统 认得 哪些 locale 名 称 : 


注 7:; 见 htip://www.ics.uci.edu/pub/ietf/http/related/iso639.txt, 


注 8: 见 http://userpage.chemie.fu-berlin.de/diverse/doc/ISO_3166.html., 
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$ locale -a 列 出 所 有 locale 名 称 
francais 

fr_BE 

fr_BEQeuro 
fr_BE.iso88591 
fr_BE.iso885915@euro 
fr_BE.utf8 
fr_BE.utf8@euro 
fr_cCAaA 

fr_CA.iso88591 
fr_CA.utf8 


french 


查询 特定 locale 变量 相关 细节 的 方法 如 下 ; 为 执行 环境 指定 locale 〈 放 在 命令 前 面 ) 并 
以 -ck 选项 与 一 个 LC_xxx 变 量 来 执行 1ocale 命令 。 下 面 的 例子 是 在 Sun Solaris 系 
统 下 ， 以 Danish (丹麦 文 ) locale 来 查询 日 期 时 间 格 式 所 得 到 结果 : 


$ LC_ALL=da locale -ck LC_ TIME 取得 Danish 的 日 期 时 间 格 式 

LC_TIME 

dt_fmt="%a %d Sb $Y %ST %2" 

d_fmt="%d-%m-%y" 

t_fmt="%T" 

t_fmt_ ampm="%I: SM:%S %Sp" 

am_pm= "AM" ML 

day=" sOn dag"; "mandag";"tirsdag"; "onsdag"; "torsdag"; "fredag";"l9rdag’ 

abday="s@n "; "man"; "tir";"ons"; "tor";"fre"”; "lOr" 

non= "januar; "februar" "marts" "april"; maj "juni" 1 "juli" "august"; \ 

"september*;"oktober"; "november";"december’" 

abmon=" jan"; "feb"; "mar"; "apr"; "maj "jun" " jul "aug"; "sep"; "okt"; \ 
"nov";"dec" 

era="" 

era_d_ fmt="" 

era_ dQ t_fmt="" 

era_ t_fmt="" 

alt_digits="" 


能 够 使 用 的 1ocale 相当 多 。 一 份 调查 了 约 20 种 UNIX 版 本 的 报告 发 现 ，BSD 与 
Mac OS X 系统 完全 不 支持 locale (没有 locale 命 令 可 用 )， 其 至 在 某 些 系 统 上 也 只 支 
持 5 种 , 不 过 新 近 发 布 的 GNU/Linux 版 本 则 几乎 可 以 支持 500 种 。locale 的 支持 在 安装 
时 或 许可 以 由 系统 管理 者 自行 决定 , 所 以 即便 是 相同 的 操作 系统 , 安装 在 两 个 类 似 的 机 
器 上 ,对 locale 的 支持 可 能 有 所 不 同 。 我 们 发 现 , 在 某 些 系统 上 ,要 提供 locale 的 支持 ， 
可 能 需要 用 到 约 300 MB ( 注 9) 的 文件 系统 。 





注 9: MB = megabyte， 约 1 百 万 字 节 ， 一 个 字 节 传统 上 有 8 位 ， 不 过 更 大 或 更 小 的 尺寸 都 有 
人 用 过 。 通 常 M 意 即 2 的 20 次 方 ， 也 就 是 1 048 576。 


www.TopSage.com 


42 ” 第 2 章 











有 些 GNU 包 已 完成 国际 化 ,并 在 本 地 化 支持 上 加 入 了 许多 locale。 例 如, 以 Italian ( 音 
大 利文 ) locale 来 说 ，GNU 的 1s 命令 已 提供 如 下 的 辅助 说 明 ， 

$ LC ALL=it_IT ls --help 取得 GNU ls 的 Italian 辅助 说 明 

Uso: 1s [OPZIONE]... [FILE}... 


Elenca informazioni sui FILE (predefinito: la directory corrente). 
Ordina alfabeticamente le voci se non e usato uno di -cftuSUX oppure --sort. 


Mandatory arguments to long options are mandatory for short options too. 


-a, --all non nasconde le voci che iniziano con . 
-A, --almost-all non elenca le voci implicite . e .. 
-~author stampa l'autore di ogni file 
-b, --escape stampa escape ottali per i ,caratteri non grafici 


--block-size=DIMENS usa blocchi lunghi DIMENS byte 


注意 ,没有 译文 的 地 方 输 出 结果 的 第 5 行 ) 会 回 到 原本 的 语言 : 英文。 程序 名 称 及 选 
项 名 称 设 有 翻译 ， 因 为 这 么 做 会 破坏 软件 的 可 移植 性 。 


目前 大 多 数 系统 均 已 对 国际 化 与 本 地 化 提供 些许 支持 ， 让 Shell 程序 员 得 以 处 理 这 方面 
的 问题 。 我 们 所 写 的 Shell 脚 本 常 受到 locale 的 影响 , 尤其 是 排序 规则 (collation order)， 
以 及 正则 表达 式 (regular expression) 的 “ 方 括号 表示 式 ”(bracket-expression) 里 的 
字符 范围 。 不过, 当 我 们 在 3.2.1 节 讨论 到 字符 集 (character class) 、 排 序 符号 (collating 
symbol) 与 等 价 字 符 集 (equivalence class) 的 时 候 ， 你 会 发 现 ， 在 大 多 数 UNIX 系统 
下 ， 很 难 从 locale 文 件 与 工具 来 判定 “字符 集 与 等 价 字符 集 ” 实 际 上 包含 了 哪些 字符 ， 
以 及 有 哪些 排序 符号 可 用 。 这 也 反映 出 ， 在 目前 的 系统 上 ，locale 的 支持 仍 未 成 熟 。 


GNU gettext 包 ( 注 10) 或 许可 用 来 支持 Shell 脚本 的 国际 化 与 本 地 化 。 这 个 高 级 主题 
不 在 本 书 的 探讨 范围 , 不 过 相关 细节 可 以 在 gettextinfo 在 线 手 册 中 的 “Preparing Shell 
Scripts for Internationalization” 一 节 找 到 。 


支持 locale 的 系统 很 多 , 但 缺乏 标准 的 locale 名 称 , 因此 locale 对 Shell 脚 本 的 可 移植 性 
帮助 不 大 ， 最 多 只 是 将 LC_ALL 设置 为 Cc， 强制 采用 传统 的 locale。 在 本 书 中 ， 当 遇 到 
locale 的 设置 可 能 会 产生 非 预 期 结果 时 ， 我 们 就 会 这 么 做 。 

2.9 “小 结 

该 选编 译 型 语言 还 是 脚本 编程 语言 , 通常 视 应 用 程序 的 需求 而 定 。 脚 本 编程 语言 多 半 用 





注 10; 。 见 ftp://ftp.gnu.org/gnu/8ettext/。megabyte 的 简易 算法 就 是 把 它 想 成 大 概 一 本 书 的 字数 
{300 页 x 60 行 /页 x 60 字 符 / 行 =1 080 000 字 符 )。 
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于 比 编译 型 语言 高 级 的 情况 , 当 你 对 性 能 的 要 求 不 高 , 希望 尽快 开发 出 程序 并 以 较 高 级 
的 方式 工作 时 ， 也 就 是 使 用 脚本 编程 语言 的 好 时 机 。 


Shell 是 UNIX 系统 中 最 重要 、 也 是 广 为 使 用 的 脚本 语言 。 因 为 它 的 无 所 不 在 , 而 且 遵 循 
POSIX 标 准 , 这 使 得 写 出 来 的 Shell 程 序 多 半 能 够 在 各 厂商 的 系统 下 运行 。 由 于 Shell 函 
数 是 一 个 高 级 的 功能 ， 所 有 Shell 程序 其 实 相当 实用 ， 用 户 只 要 花 一 点 力气 就 能 做 很 多 
事情 。 


所 有 的 Shell 脚本 都 应 该 以 #! 为 第 一 行 ， 这 一 机 制 可 让 你 的 脚本 更 有 灵活 性 ， 你 可 以 选 
择 使 用 Shell 或 其 他 语言 来 编写 脚本 。 


Shell 是 一 个 完整 的 程序 语言 。 目 前 , 我 们 已 经 说 明 过 基本 的 命令 、 选 项 、 参 数 与 变量 ， 
以 及 echo 与 printf 的 基本 输出 。 我 们 也 大 致 介绍 了 基本 的 1/0 重 定向 符 : <、>、>> 
以 及 ss 


Shell 会 在 $PATH 变 量 所 列举 的 各 个 目录 中 寻找 命令 。$PATH 常 会 包含 个 人 的 bin 目 录 
(用 来 存储 你 个 人 的 程序 与 脚本 ), 你 可 以 在 .profile 文 件 中 将 该 目录 列 入 到 PATH 里 。 


我 们 还 看 过 了 取得 命令 行 参数 的 基本 方式 ， 以 及 简易 的 执行 跟踪 。 


本 章 最 后 讨论 的 是 国际 化 与 本 地 化 。 在 世界 各 地 的 人 们 对 运算 需求 越 来 越 大 的 时 候 , 该 
主题 在 计算 机 系统 上 也 日 益 重 要 了 。 对 Shell 脚 本 而 言 , 尽管 这 方面 的 支持 仍然 有 限 , 不 
过 Shell 程 序 员 还 是 应 该 了 解 locale 对 他 们 的 程序 代码 所 造成 的 影响 。 
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我 们 在 1.2 节 里 曾 提 及 UNIX 程序 员 偏好 处 理 文本 的 行 与 列 。 文 本 型 数据 比 二 进 制 数据 
更 具 灵 活性 ， 且 UNIX 系统 也 提供 许多 工具 ， 让 用 户 可 以 轻松 地 剪贴 文本 。 


在 本 章 中 ， 我 们 要 讨论 的 是 编写 Shell 脚本 时 经 常用 到 的 两 个 基本 操作 : 文本 查找 
(searching) 一 一 寻找 含有 特定 文本 的 行 , 文本 替换 (substitution) 一 一 更 换 找到 的 文 
本 。 


虽然 你 可 以 使 用 简单 的 固定 文本 字符 串 完成 很 多 工作 ， 但 是 正则 表达 式 (regular 
expression) 能 提供 功能 更 强大 的 标记 法 ， 以 单个 表达 式 匹 配 各 种 实际 的 文本 段 。 本 章 
会 介绍 两 种 由 不 同 的 UNIX 程 序 所 提供 的 正则 表达 式 风格 , 然后 再 进一步 介绍 提取 文本 
与 重新 编排 文本 的 几 个 重要 工具 。 


3.1 ”查找 文本 


以 grep 程 序 查找 文本 (以 UNIX 的 专业 术语 来 说 , 是 匹配 文本 (matching text)) 是 相 
当 方 便 的 。 在 POSIX 系统 上 ，grep 可 以 在 两 种 正则 表达 式 风 格 中 选择 一 种 , 或 是 执行 
简单 的 字符 串 匹 配 。 


传统 上 ， 有 三 种 程序 ， 可 以 用 来 查找 整个 文本 文件 : 


grep 
最 早 的 文本 匹配 程序 。 使 用 POSIX 定义 的 基本 正则 表达 式 (Basic Regular 
Expression，BRE) ， 本 章 稍 后 会 提 到 这 部 分 。 
egrep 
扩展 式 grep (Extended grep)。 这 个 程序 使 用 扩展 正则 表达 式 (Extended Regular 
Expression, ERE) 一 一 这 是 一 套 功 能 更 强大 的 正则 表达 式 , 使 用 它 的 代价 就 是 会 
44 
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耗 掉 更 多 的 运算 资源 。 在 早期 出 现 的 PDP-11 的 机 器 上 ,这 点 事 关 重大 , 不 过 以 现 
在 的 系统 而 言 ， 在 性 能 影响 上 几乎 没有 太 大 的 差别 。 
fgrep 

快速 grep (Fast grep)。 这 个 版 本 匹配 固定 字符 串 而 非 正则 表达 式 ， 它 使 用 优化 
的 算法 , 能 更 有 效 地 匹配 国定 字符 串 。 最 初 的 版 本 , 也 是 唯一 可 以 并 行 (in parallel) 
地 匹配 多 个 字符 串 的 版 本 ， 也 就 是 说 ，grep 与 egrep 只 能 匹配 单个 正则 表达 式 ， 
而 fgrep 使 用 不 同 的 算法 ， 却 能 匹配 多 个 字符 串 ， 有 效 地 测试 每 个 输入 行 里 ， 是 
否 有 匹配 的 查找 字符 串 。 


1992 POSIX 标准 将 这 三 个 改版 整合 成 一 个 grep 程序 ， 它 的 行为 是 通过 不 同 的 选项 加 
以 控制 。POSIX 版 本 可 以 匹配 多 个 模式 不 管 是 BRE 还 是 ERE。fgrep 与 egrep 
两 者 还 是 可 用 , 只 是 标记 为 不 推荐 使 用 (deprecated), 即 它们 有 可 能 在 往 后 的 标准 里 删 
除 。 果然 , 在 2001 POSIX 标 准 里 , 就 只 纳入 合并 后 的 grep 命令。 不 过 实际 上 , egrep 
与 fgrep 在 所 有 UNIX 与 类 UNIX 的 系统 上 都 还 是 可 用 的 。 





3.1.1 简单 的 grep 


grep 最 简单 的 用 法 就 是 使 用 固定 字符 串 : 


$ who 有 谁 登录 了 
tolstoy ttyl Feb 26 10:53 

tolstoy pts/0 Feb 29 10:59 

tolstoy pts/l1 Feb 29 10:59 

tolstoy pts/2 Feb 29 11:00 

tolstoy pts/3 Feb 29 11:00 

tolstoy pts/4 Feb 29 11:00 

austen pts/5 Feb 29 15:39 (mansfield-park.example.com) 
austen pts/6 Feb 29 15:39 {mansfie}jd-park.example.com) 
$ who | grep -F austen austen 登录 于 何 处 
austen pts/5 . Feb 29 15:39 {mansfield-park.example .com) 
austen pts/6 Feb 29 15:39 {mansfield-park.example.com) 


范例 中 使 用 -F 选项 ， 以 查找 固定 字符 串 austen。 事 实 上 ， 只 要 匹配 的 模式 里 未 含有 
正则 表达 式 的 meta 字符 (metacharacter) ， 则 grep 默认 行为 模式 就 等 同 于 使 用 了 -F: 


$ who | grep austen 不 具 -F， 但 结果 一 样 
austen pts/5 Feb 29 15:39 (mansfield-park.example.com) 
austen pts/6 Feb 29 15:39 (mansfield-park.example.com) 


3.2 ”正则 表达 式 


本 市 提供 有 关 正 则 表达 式 构造 与 匹配 方式 的 概述 。 特别 会 提 及 POSIX BRE 与 ERE 构 造 ， 
因为 它们 想 要 将 大 部 分 UNIX 工 具 里 的 两 种 正则 表达 式 基 本 风格 (flavors) 加 以 正式 化 。 


www.TopSage.com 


46 第 如 阐 ， 


grep 


语法 
grep [ options ... ] pattern-spec [ fiiles ... |] 
用 途 
显示 匹配 一 个 或 多 个 模式 的 文本 行 。 时 常会 作为 管道 (pipeline) 的 第 一 步 ， 
以 便 对 匹配 的 数据 作 进 一 步 处 理 。 
. 主要 选项 
= 
使 用 扩展 正则 表达 式 进 行 匹配 。grep -也 可 取代 传统 的 egrep。 
-F 
使 用 固定 字符 串 进 行 匹 配 。grep -F 可 取代 传统 的 fgrep 命令 。 
-e pat-list 
通常 ， 第 一 个 非 选项 的 参数 会 指定 要 匹配 的 模式 。 你 也 可 以 提供 多 个 模 
式 ， 只 要 将 它们 放 在 引号 里 并 以 换行 字符 分 隔 它 们 。 模 式 以 减 号 开头 时 ， 
grep 会 混 消 ， 而 将 它 视 为 选项 。 这 就 是 -e 选 项 派 上 用 场 的 时 候 ， 它 可 
以 指定 其 参数 为 模式 即使 它 以 减 号 开头 。 
-f pat-file 
从 pat-file 文 件 读 取 模式 作 匹 配 。 


模式 匹配 时 忽略 字母 大 小 写 差 异 。 
列 出 匹配 模式 的 文件 名 称 ， 而 不 是 打印 匹配 的 行 。 


静默 地 。 如 果 模 式 匹 配 匹配 , 则 grep 会 成 功 地 离开 , 而 不 将 匹配 的 行 写 入 
标准 输出 ; 否则 即 是 不 成 功 。( 我 们 尚未 讨论 成 功 / 不 成 功 ; 可 参考 6.2 节 ) 。 
-Ss 
不 显示 错误 信息 。 通 常 与 -q 并 用 。 
“NF 
显示 不 匹配 模式 的 行 。 
存 为 模式 . 
读 取 命令 行 上 指名 的 每 个 文件 。 发 现 匹配 查找 模式 的 行 时 , 将 它 显 示 来 。 当 指 
明 多 个 文件 时 ,grep 会 在 每 一 行 前 面 加 上 文件 名 与 一 个 冒号 ,默认 使 用 BRE。 
登 告 
你 可 以 使 用 多 个 -e 与 -f 选 项， 建立 要 查找 的 模式 列表 。 
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我 们 期 望 你 在 阅读 这 本 书 前 , 已 经 接触 过 正则 表达 式 与 文本 匹配 , 并 已 有 些 了 解 。 如 果 
是 这 样 ， 下 面 的 段落 将 证 清 如 何 使 用 正则 表达 式 完成 具有 可 移植 性 的 Shell 脚本 。 


若 你 完全 没 接触 过 正则 表达 式 , 那么 这 里 提 到 的 东西 对 你 来 说 可 能 太 简 略 了 , 你 应 该 先 
去 看 看 介绍 性 的 资料 ， 例 如 《Learning the UNIX Operating System》(O'Reilly) 或 是 
《sed 多 awk》(O"Reilly) 。 因 为 正则 表达 式 是 UNIX 工具 使 用 和 构建 模型 上 的 基础 ， 花 
些 时 间 学 习 如 何 使 用 它们 并 且 好 好 利用 它们 ， 你 会 不 断 地 从 各 个 层面 得 到 充分 的 回报 。 


如 果 你 使 用 正则 表达 式 处 理 文 本 已 有 多 年 经 验 , 可 能 会 觉得 这 里 所 介绍 的 内 容 略 嫌 粗 略 。 
在 这 种 情况 下 ， 我 们 会 建议 你 浏览 了 第 一 部 分 POSIX BRE 与 ERE 的 表格 式 概括 之 后 ， 
就 直接 跳 到 下 一 节 ， 然 后 找 一 些 比 较 深 入 的 资料 来 阅读 ， 例如 《Mastering Regular 
Expressions》(O"?Reilly ) 。 


3.2.1 什么 是 正则 表达 式 

正则 表达 式 是 一 种 表示 方式 ， 让 你 \ 可 以 查找 匹配 特定 准则 的 文本 ， 例如 ,“ 以 字母 a 开 
头 ”。 此 表示 法 让 你 可 以 写 一 个 表达 式 ， 选 定 或 匹配 多 个 数据 字符 串 。 

除了 传统 的 UNIX 正则 表达 式 表示 法 之 外 ，POSIX 正则 表达 式 还 可 以 做 到 : 


。 ”编写 正则 表达 式 ， 它 表示 特定 于 locale 的 字符 序列 顺序 和 等 价 字符 。 
。 ”编写 正则 表达 式 ， 而 不 必 关心 系统 底层 的 字符 集 是 什么 。 


很 多 的 UNIX 工 具 程 序 没 用 某 一 种 正则 表达 式 形 式 来 强化 本 身 的 功能 。 这 里 列举 一 部 分 
例子 : 


。 ”用 来 寻找 匹配 文本 行 的 grep 工 具 族 :grep 与 egrep, 以 及 非 标准 但 很 好 用 的 agrep 
工具 ( 注 1)。 
。 ”用 来 改变 输入 流 的 sed 流 编辑 器 (stream editor) ， 本 章 稍 后 将 会 介绍 。 
. 字符 串 处 理 程 序 语言 ， 例 如 a Icon、Perl、Python、Ruby、Tcl 等 。 
。 ”文件 查看 程序 (有 时 称 为 分 页 程序 , pagers ) ， 例 如 more、page, 与 pg， 都 常 出 现 
在 商用 UNIX 系统 上 ， 另 外 还 有 广 受 欢迎 的 1ess 分 页 程序 ( 注 2)。 


注 1: 1992 年 原始 的 UNIX 服 本 是 在 ftp://fip.cs.arizona.edu/agrep/agrep-2.04.tar.Z, Windows 
版 本 则 在 htip://www.tgries.de/agrep/337/agrep337.zip。agrep 不 同 于 我 们 在 本 书 中 介 
绍 的 大 部 分 可 自由 下 载 的 软件 , 它 并 不 能 随意 地 用 于 任何 目的 ; 你 可 以 参考 程序 所 附 的 
许可 文件 。 

注 2: 与 more 对 应 的 双关 语 。 ftp://ftp. gnu.org/gnu/less/, 
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. 文本 编辑 器 ， 例 如 历史 悠久 的 eaQ 行 编辑 器 、 标 准 的 vi 屏幕 编辑 器 , 还 有 一 些 插件 
(add-on) 编辑 器 ， 例 如 emacs、jed、jove、vile、vim 等 。 


正 因为 正则 表达 式 对 于 UNIX 的 使 用 是 这 么 的 重要 , 所 以 花 些 时 间 把 它们 和 弄 熟 绝对 不 会 
错 ， 越 早 开 始 就 能 掌握 得 越 好 。 


从 根本 上 来 看 , 正则 表达 式 是 由 两 个 基本 组 成 部 分 所 建立 : 一 般 字符 与 特殊 字符 。 一 般 
字符 指 的 是 任何 没有 特殊 意义 的 字符 , 正如 下 表 中 所 定义 的 。 在 某 些 情况 下 , 特殊 字符 
也 可 以 视 为 一 般 字 符 。 特殊 字符 常 称 为 元 字符 (metacharacter), 本 章 接 下 来 的 部 分 都 会 
以 meta 字符 表示 。 表 3-1 为 POSIX BRE 与 ERE 的 meta 字符 列表 。 


表 3-1: POSIX BRE 与 ERE 的 meta 字符 


字符 。” BRE/ERE.， 模式 含义 


\ 两 者 都 可 通常 用 以 关闭 后 续 字 符 的 特殊 意义 。 有 时 则 是 相反 地 打开 后 续 字 

符 的 特殊 音义, 例如 \(...\) 与 \{...\} 
两 者 都 可 匹配 任何 单个 的 字符 ,但 NUL 除外。 独立 程序 也 可 以 不 允许 匹配 

换行 字符 。 

二 两 者 都 可 匹配 在 它 之 前 的 任何 数 且 (或 没有 ) 的 单个 字符 。 以 ERE 而 言 , 此 
前 置 字 符 可 以 是 正则 表达 式 , 例如 : 因为 . (点 号 ) 表示 任 一 字符 ， 
所 以 .* 代表 “匹配 任 一 字符 的 任意 长 度 " 。 以 BRE 来 说 ，* 若 置 
于 正则 表达 式 的 第 一 个 字符 ， 不具 任何 特殊 意义 。 


两 者 都 可 匹配 紧 接 着 的 正则 表达 式 , 在 行 或 字符 串 的 起 始 处 。BRE: 仅 在 正 
则 表达 式 的 开头 处 具 此 特殊 含义 , ERE : 置 于 任何 位 置 都 具 特 殊 含 

义 。 
$ 两 者 都 可 匹配 前 面 的 正则 表达 式 , 在 字符 串 或 行 结尾 处 .BRE: 仅 在 正则 表 


达 式 结尾 处 具 特 殊 含 又 。ERE :， 署 于 任何 位 置 都 具 特 殊 含义 。 
[...] ”两 者 都 可 方 括号 表达 式 (bracket expression) ， 匹 配方 括号 内 的 任 一 字符 。 
连 字 符 (-) 指 的 是 连续 字符 的 范围 (注意: 范围 会 因 1locale 而 有 
所 不 同 ， 因 此 不 具 可 移植 性 )。^ 符 号 置 于 方 括 号 里 第 一 个 字符 则 
有 反 向 含义 : 指 的 是 匹配 不 在 列表 内 ( 方 括 号 内 ) 的 任何 字符 。 作 
为 首 字 符 的 一 个 连 字 符 或 是 结束 方 括号 (] ) ， 则 被 视 为 列表 的 一 
部 分 。 所 有 其 他 的 meta 字符 也 为 列表 的 一 部 分 (也 就 是 : 根据 其 
字面 上 的 意义 )。 方 括号 表达 式 里 可 能 会 含有 排序 符号 (collating 
symbol), 等 价 字符 集 (equivalence class) , 以 及 字符 集 (character 
class) ( 文 后 将 有 介绍 )。 
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表 3-1: POSIX BRE 与 ERE 的 meta 字符 ( 续 ) 

字符 。 BRE/ERE “模式 含义 

\{n,m\} BRE 区 间 表 达 式 (interval expression) , 匹配 在 它 前 面 的 单个 字符 重 现 
(occurrences) 的 次 数 区 间 。\ {n\} 指 的 是 重 现 n 次 ;\ {n, \} 则 
为 至 少 重 现 (occurrences) n 次 , 而 \ {n,m\} 为 重 现 n 至 m 次 。n 
与 m 的 值 必须 介 于 0 至 RE_DUP_MAX ( 含 ) 之 间 , 后 者 最 小 值 为 255。 

\( \) BRE 将 \( 与 J 间 的 模式 存储 在 特殊 的 “保留 空间 (holding space) 。 最 
多 可 以 将 9 个 独立 的 子 模式 (subpattern) 存储 在 单个 模式 中 。 匹 
配 于 子 模式 的 文本 ， 可 通过 转 义 序列 (escape sequences) \1 至 
\9, 被 重复 使 用 在 相同 模式 里 。 例如 \ (ab\).*\1, 指 的 是 匹配 于 
ab 组 合 的 两 次 重 现 ， 中 间 可 存在 任何 数 具 的 字符 。 


\n BRE 重复 在 \ (与 \) 方 括号 内 第 n 个 子 模式 至 此 点 的 模式 。n 为 1 至 9 
的 数字 ，1 为 由 左 开始 。 

{n,m} ERE 与 先前 提 及 BRE 的 \{n,m\} 一 样 ， 只 不 过 方 括 号 前 没有 反 斜 杠 。 

p ERE 匹配 前 面 正则 表达 式 的 一 个 或 多 个 实例 。 

? ERE 匹配 前 面 正则 表达 式 的 零 个 或 一 个 实例 。 

| ERE 匹配 于 | 符号 前 或 后 的 正则 表达 式 。 

GC ERE 匹配 于 方 括号 括 起 来 的 正则 表达 式 群 。 


表 3-2 列 举 了 一 些 简 单 的 范例 。 
表 3-2: 简单 的 正则 表达 式 匹配 范例 


A 证 
tolstoy 位 于 一 行 上 任何 位 置 的 7 个 字母 : tolstoy 
^tolstoy 7 个 字母 tolstoy， 出 现在 一 行 的 开头 

tolstoys$s 7 个 字母 tolstoy， 出 现在 一 行 的 结尾 


^tolstoys 正好 包括 tolstoy 这 7 个 字母 的 一 行 ， 没 有 其 他 的 任何 字符 

[Ttl]olstoy ”在 一 行 上 的 任意 位 居中 ,含有 Tolstoy 或 是 tolstoy 

tol.toy 在 一 行 上 的 任意 位 居中 ,含有 tol 这 3 个 字母 ， 加 上 任何 一 个 字符 ， 再 接 
着 toy 这 3 个 字母 

tol.*toy 在 一 行 上 的 任意 位 居中 , 含有 tol 这 3 个 字母 加 上 任意 的 0 或 多 个 字符 ， 
再 继续 toy 这 3 个 字母 (例如 ，toltoy、tolstoy、tolWHOtoy 等 ) 


3.2.1.1 POSIX 方 括号 表达 式 
为 配合 非 英语 的 环境 ，POSIX 标准 强化 其 字符 集 范围 的 能 力 (例如 , [a-z] )， 以 匹配 
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非 英 文字 母 字符 。 举 例 来 说 , 法 文 的 8 是 字母 字符 , 但 以 传统 字符 集 [a-z] 匹配 并 无 该 
字符 。 此 外 ,该 标准 也 提供 字符 序列 功能 ,可 用 以 在 匹配 及 排序 字符 串 数 据 时 ,将 序列 
里 的 字符 视 为 一 个 独立 单位 (例如 ， 将 locale 中 ch 这 两 个 字符 视 为 一 个 单位 ， 在 匹配 
与 排序 时 也 应 这 样 看 待 )。 越 来 越 广 为 使 用 的 Unicode 字 符 集 标准 ,进一步 地 增加 了 在 简 
单 范围 内 使 用 它 的 复杂 度 ， 使 得 它们 对 于 现代 应 用 程序 而 言 更 加 不 适用 ，。 


POSIX 也 在 一 般 术 语 上 作 了 些 变 动 , 我 们 早先 看 到 的 范围 表达 式 在 UNIX 里 通常 称 为 字 
符 集 (character class) ,在 POSIX 的 标准 下 ,现在 叫做 方 括号 表达 式 (bracket expression ) 。 
在 方 括号 表达 式 里 ， 除 了 字面 上 的 字符 (例如 z、 ;等 等 ) 之 外 ， 另 有 额外 的 组 成 部 分 ， 
包括 : 


字 答 集 (Character class) 
以 [ :与 :] 将 关键 字 组 合 括 起 来 的 POSIX 字符 集 。 关 键 字 描 述 各 种 不 同 的 字符 集 ， 
例如 英文 字母 字符 、 控 制 字 符 等 ， 见 表 3-3。 

排序 符号 (Collating symbol) 
排序 符号 指 的 是 将 多 字符 序列 视 为 一 个 单位 。 它 使 用 [. 与 . ] 将 字符 组 合 括 起 来 。 
排序 符号 在 系统 所 使 用 的 特定 locale 上 各 有 其 定义 。 

等 价 字 符 焦 (Equivalence class) | 
等 价 字符 集 列 出 的 是 应 视 为 等 值 的 一 组 字符 ,例如 e 与。 它 由 取 自 于 locale 的 名 
字 元 素 组 成 ， 以 [= 与 =] 括 住 。 


这 三 种 构造 都 必须 使 用 方 括号 表达 式 。 例 如 [[:alpha:]1!] 匹 配 任 一 英文 字母 字符 或 惊 
叹 号 (1); 而 [[.en.]] 则 匹配 于 ch (排序 元 素 ), 但 字母 c 或 h 则 不 是 。 在 法 文 French 
的 locale 里 , [ [=e=]] 可 能 匹配 于 e、e、e、8 或 E。 接 下 来 会 有 字符 集 、 排 序 符 号 ， 以 
及 等 价 字符 集 的 详细 说 明 。 


表 3-3 描述 POSIX 字符 集 。 


表 3-3， POSIX 字符 集 


和 


类 别 匹配 字符 ”守卫 字符 和 生生 
:alnum:] 数字 字符 lower 小 写字 母 字符 
:alpha:] 字母 字符 print 可 显示 的 字符 
:blank:] 空格 (space) 与 定位 (tab) 字符 

] 


空白 (whitespace) 字符 
大 写字 母 字符 
:xdigit:] 十 六 进 制 数字 


] 
[ ] 
[:punct :] ”标点 符号 字符 
控制 字符 [:space: ] 
:digit:] 数字 字符 [ ] 
[ 


:graph:] 非 空格 (nonspace) 字符 








[ 
[ 
[ 
[:cntrl: 
[ 
[ 
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BRE 与 ERE 共享 一 些 常见 的 特性 ， 不 过 仍 有 些 重要 差异 。 我 们 会 从 BRE 的 说 明 开始 ， 
再 介绍 ERE 附 加 的 meta 字符 ， 最 后 针对 使 用 相同 〈 或 类 似 ) meta 字 符 但 拥有 不 同 语义 
(或 含义 ) 的 情况 进行 说 明 。 | 


3.2.2 ”基本 正则 表达 式 


BRE 是 由 多 个 组 成 部 分 所 构建 , 一 开始 提供 数 种 匹配 单个 字符 的 方式 , 而 后 又 结合 额外 
的 meta 字符 ， 进 行 多 字符 匹配 。 


3.2.2.1 ”匹配 单个 字符 
最 先 开始 是 匹配 单个 字符 。 可 采用 集中 方式 做 到 ; 以 一 般 字 符 、 以 转 义 的 meta 字 符 、 以 
. (点 号 ) meta 字符 ， 或 是 用 方 括号 表达 式 : 


。 ”一 般 字 符 指 的 是 未 列 于 表 3-1 的 字符 , 包括 所 有 文字 和 数字 字符 、 绝 大 多 数 的 空白 
(whitespace) 字符 以 及 标点 符号 字符 。 因 此 , 正则 表达 式 a, 匹配 于 字符 a。 我 们 
可 以 说 , 一 般 字符 所 表示 的 就 是 它们 自己 , 且 这 种 用 法 应 是 最 直接 且 易 于 理解 的 。 
所 以 ，she1ll 匹配 于 shell; WoRGd 匹配 于 WoRQ， 但 不 匹配 于 word。 


。 “ 若 meta 字符 不 能 表示 它们 自己 ， 那 当 我 们 需要 让 meta 字符 表示 它们 自己 的 时 候 ， 
该 怎么 办 ? 答案 是 转 义 它 。 在 前 面 放 一 个 反 斜 杠 来 做 到 这 一 点 。 因 此 ，\* 匹配 于 
字面 上 的 *，\\ 匹 配 于 字面 上 的 反 斜 本， 还 有 \ [匹配 于 左 方 括号 〈 车 将 反 斜 杠 放 
在 一 般 字符 前 ， 则 POSIX 标准 保留 此 行为 模式 为 未 定义 状态 。 不 过 通常 这 种 情况 
下 反 斜 杠 会 被 忽略 ， 只 是 很 少 人 会 这 人 么 做 ) 。 


。 “. (点 号 ) 字符 意 即 “ 任 一 字符 ”。 因 此 ,a.c 匹配 于 abc、 aac 以 及 aqc。 单个 点 
号 用 以 表示 自己 的 情况 很 少 ， 它 多 半 与 其 他 meta 字符 搭配 使 用 ， 这 一 结合 允许 匹 
配 多 个 字符 ， 这 部 分 稍 后 会 提 及 。 | 

。 ”最 后 一 种 匹配 单个 字符 的 方式 是 使 用 方 括号 表达 式 (bracket expression) 。 最 简单 
的 方 括 号 表达 式 是 直接 将 字符 列表 放 在 方 括 号 里 , 例如 , [aeiouy] 表示 的 就 是 所 
有 小 写 元 音字 母 。 举例 来 说 , cLaeiouy]t 匹配 于 cat、cot 以 及 cut (还 有 cet、 
cit, 与 cyt), 但 不 匹配 于 cbt。 

在 方 括号 表达 式 里 , ^ 放 在 字 首 表示 是 取 反 (complement) 的 意思 ， 也 就 是 说 , 不 
在 方 括号 列表 里 的 任意 字符 。 所 以 [^aeiouy] 指 的 就 是 小 写 元 音字 符 以 外 的 任何 
字符 ， 例 如 : 大 写 元 音字 母 、 所 有 辅音 字母 、 数 字 、 标 点 符号 等 。 


将 所 有 要 匹配 的 字母 全 列 出 来 是 一 件 无 聊 又 麻烦 的 事 。 例 如 [0123456789] 指 所 有 数字 ， 
或 10123456789abcdefABCDEF] 表示 所 有 十 六 进 制 数 字 。 因 此 ， 方 括号 表达 式 可 以 包 
括 字符 的 范围 。 像 前 面 提 到 的 两 个 例子 ， 就 可 以 分 别 以 [0-9] 与 [0-9a-fA-F] 表 示 。 
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警告 : 一 开始 ， 范 围 表示 法 匹配 字符 时 ,是 根据 它们 在 机 器 中 字符 集 内 的 数值 。 因 此 字符 集 的 不 
同 (ASCII v.s EBCDIC), 会 使 得 表示 法 无 法 百分之百 地 具有 可 移植 性 ,但 实际 土 问题 不 
大 ， 因 为 几乎 所 有 的 UNIX 系统 都 是 使 用 ACSII。 
以 POSIX 的 locale 来 说 , 某 些 地 方 可 能 会 有 问题 。 范 围 使 用 的 是 各 个 字符 在 locale 排序 序 
列 里 所 定义 的 位 置 ， 与 机 器 字符 集 里 的 数值 不 相关 。 因 此 ， 范 围 表 示 法 仅 在 程序 运行 在 
locale 设置 为 “POSIX” 之 下 , 才 具 可 移植 性 。 前 面 所 提 及 的 POSIX 字符 集 表示 法 ， 提 供 
一 种 可 移植 方式 表示 概念 ， 例 如 “所 有 数字 ”， 或 是 “所 有 字母 字符 ”， 因 此 在 方 括号 表达 
式 内 的 范围 不 建议 用 在 新 程序 里 。 


在 前 面 的 3.2.1 节 里 ， 我 们 曾 简 短 地 介绍 POSIX 的 排序 符号 (collating symbol) 、 等 价 
字符 集 (equivalence class) 以 及 字符 集 (character class ) 。 这 些 是 方 括号 表达 式 最 后 
出 现 的 组 成 部 分 。 接 下 来 我 们 就 要 说 明 它 们 的 构造 方式 。 


在 部 分 非 英语 系 的 语言 里 ,为 了 匹配 需要 ， 某 些 成 对 的 字符 必须 视 为 单个 字符 。 像 这 样 
的 成 对 字符 ， 当 它们 与 语言 里 的 单个 字符 比较 时 ， 都 有 其 排序 的 定义 方式 。 例 如 ， 在 
Czech 与 Spanish 语系 下 ，ch 两 个 字符 会 保持 连续 状态 ， 在 匹配 时 ， 会 视 为 单个 独立 单 
位 。 


排序 (collating) 是 指 给 予 成 组 的 项 目 排列 顺序 的 操作 。 一 个 POSIX 的 排序 元 素 由 当前 
locale 中 的 元 素 名 称 组 成 ， 并 由 [ . 与 . ] 括 起 来 。 以 刚才 讨论 的 ch 来 说 ，locale 可 能 会 
用 [ .ch.] (我 们 说 “可 能 ”是 因为 每 一 个 locale 都 有 自己 定义 的 排序 元 素 ) 。 假 定 
[ .ch.] 是 存在 的 ， 那 么 正则 表达 式 [ab[ .ch.]1de] 则 匹配 于 字符 a、b、d 或 e, 或 者 
是 成 对 的 ch; 而 单独 的 c 或 h 字符 则 不 匹配 。 


等 价 字符 集 (equivalence class) 用 来 让 不 同 字 符 在 匹配 时 视 为 相同 字符 。 等 价 字符 集 
将 类 别 (class) 名 称 以 [= 与 =] 括 起 来 。 举 例 来 说 , 在 French 的 locale 下 , 可 能 有 [=e=] 
这 样 的 等 价 字符 集 ,在 此 类 别 存在 的 情况 下 ， 正 则 表达 式 [a[=e=]iouy] 就 等 同 于 所 有 
小 写 英 文字 母 元 音 ， 以 及 字母 e、& 等 。 


最 后 一 个 特殊 组 成 部 分 : 字符 集 ， 它 表示 字符 的 类 别 , 例如 数字 、 小 写 与 大 写字 母 、 标 
点 符号 、 空 白 (whitespace) 等 。 这 些 类 别名 称 定义 于 [ :与 : ] 之 间 。 完 整 列表 如 表 3- 
3 所 示 。 前 POSIX (pre-POSIX) 范围 表达 式 对 于 十 进 制 与 十 六 进 制 数字 的 表示 (应 该 ) 
是 具有 可 移植 性 的 ， 可 使 用 字符 集 : [[:adigit:]] 与 [[:xdigit:]] 达 成 。 


注意 : 排序 元 素 、 等 价 字符 集 以 及 字符 集 ， 都 仅 在 方 括号 表达 式 的 方 括号 内 认可 ， 也 就 是 说 ， 像 
[:alpha:] 这 样 的 正则 表达 式 ， 匹 配 字符 为 a、1、p、h 以 及 :， 表示 所 有 英文 字母 的 正 
确 写 法 应 为 [[:alpha:]]。- 
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在 方 括号 表达 式 中 ， 所 有 其 他 的 meta 字符 都 会 失去 其 特殊 含义 。 所 以 [*\.] 匹配 于 字 
面 上 的 星 号 . 反 斜 杠 以 及 名 点。 要 让 ] 进 入 该 集合 ,可 以 将 它 放 在 列表 的 最 前 面 : []*\.]， 
将 ] 增 加 至 此 列表 中 。 要 让 减 号 字符 进入 该 集合 ， 也 请 将 它 放 到 列表 最 前 端 : [-*\ .]。 
若 你 需要 右 方 括号 与 减 号 两 者 进入 列表 , 请 将 右 方 括号 放 到 第 一 个 字符 、 减 号 放 到 最 后 
一 个 字符 : [] *\.-]。 


最 后 ，POSIX 明确 陈述 :NUL 字符 (数值 的 零 ) 不 需要 是 可 匹配 的 。 这 个 字符 在 C 语 
言 里 是 用 来 指出 字符 串 结尾 , 而 POSIX 标 准则 希望 让 它 是 直 鹤 了 当 的 , 通过 正规 C 字 符 
串 的 使 用 实现 其 功能 。 除 此 之 外 ， 另 有 其 他 个 别 的 工具 程序 不 允许 使 用 . (点 号 ) meta 
字符 或 方 括号 表达 式 来 进行 换行 字符 匹配 。 


3.2.2.2 ”后 向 引用 

BRE 提供 一 种 叫 后 向 引用 (backreferences) 的 机 制 ， 指 的 是 “匹配 于 正则 表达 式 匹 配 
的 先前 的 部 分 "。 使 用 后 向 引用 的 步骤 有 两 个 。 第 一 步 是 将 子 表达 式 包围 在 \ (与 \) 里 ; 
单个 模式 里 可 包括 至 多 9 个子 表达 式 ， 且 可 为 候 套 结构 。 


下 一 步 是 在 同一 模式 之 后 使 用 \aGigit， digit 指 的 是 介 于 1 至 9 的 数字 , 指 的 是 “匹配 
于 第 n 个 先前 方 括号 内 子 表达 式 匹 配 成 功 的 字符 ”。 举 例如 下 : 


模式 ”匹配 成 殉 : 
\(ab\)\(cd\) [defl*\2\1 ,. abcdcdab. abcdeeecdab. abcdddeeffcdab., ... 
\ (why\) .*\1 一 行 里 重 现 两 个 why 


\(I[:alpha:]_][[:alnum:]_]*\) = \1; 简易 C/C++ 赋值 语句 








后 向 引用 在 寻找 重复 字 以 及 匹配 引号 时 特别 好 用 : 
N\(Te AN) .*N1 匹配 以 单 引 号 或 双 引 号 括 起 来 的 字 ， 例 如 'foo' 或 "bar" 


在 这 种 方法 下 ， 就 无 须 担 心 是 单 引 号 或 是 双 引 号 先 找到 。 


3.2.2.3 ”单个 表达 式 匹 配 多 字符 

匹配 多 字符 最 简单 的 方法 就 是 把 它们 一 个 接 一 个 (连接 ) 列 出 来 , 所 以 正则 表达 式 ab 匹 
配 于 ab，. . (两 个 点 号 ) 匹配 于 任意 两 个 字符 , 而 [[:upper:]][[:lower:]]1 则 匹配 
于 任意 一 个 大 写字 符 ， 后 面 接着 任意 一 个 小 写字 符 。 不 过 , 将 这 些 字符 全 列 出 来 只 有 在 
简短 的 正则 表达 式 里 才 好 用 。 


虽然 .〈 点 号 ) meta 字 符 与 方 括号 表达 式 都 提供 了 一 次 匹配 一 个 字符 的 很 好 方式 ,但 正 
则 表达 式 真 正 强 而 有 力 的 功能 ， 其 实 是 在 修饰 符 (modifier) meta 字符 的 使 用 上 。 这 类 
meta 字符 紧 接 在 具有 单个 字符 的 正则 表达 式 之 后 ， 且 它们 会 改变 正则 表达 式 的 含义 。 
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最 常用 的 修饰 符 为 星 号 (*)， 表示 区 取 0 个 或 多 个 前 加 的 证 个 学 符 -。 因此 ，ab*c 表 
示 的 是 ,“ 匹 配 1 个 a、0 或 多 个 b 字 符 以 及 a c”。 这 个 正则 表达 式 匹 配 的 有 ae、 abc、 
abbc、abbbc 等 。 





注意 : “匹配 0 或 多 个 ”不 表示 “匹配 其 他 的 某 一 个 ……”， 了 解 这 一 点 是 相当 重要 的 。 也 就 是 说 ， 

正则 表达 式 ab*c 下 ， 文本 aoc 是 不 匹配 的 一 即便 是 aQc 里 拥有 0 个 b 字 符 。 相对 的 ， 

以 文本 ac 来 说 , b* 在 ab*c 里 表述 的 是 匹配 a 与 c 之 间 含 有 空 字符 串 (null string) 一 一 

意 即 长 度 为 0 的 字符 审 (车 你 先前 没 遇 过 字符 串 长 度 为 0 的 概念 ， 这 里 可 能 得 花 点 时 间 消 
”化 。 总 之 ， 它 在 必要 的 时 候 会 派 得 上 用 场 ， 这 在 本 章 稍 后 会 有 所 介绍 )。 





* 修饰 符 是 好 用 的 , 但 它 没有 限制 , 你 不 能 用 * 表 示 “ 匹 配 三 个 字符 , 而 不 是 四 个 字符 ”， 
而 要 使 用 一 个 复杂 的 方 括号 表达 式 ,表明 所 需 的 匹配 次 数 一 一 这 也 是 件 很 麻烦 的 事 。 区 
闻 表 达 式 (interval expressions) 可 以 解决 这 类 问题 。 就 像 * ， 它 们 一 料 接 在 单个 字符 
正则 表达 式 后 面 ,- 控 制 该 字符 连续 重复 几 次 即 为 匹配 成 功 。 区 间 表达 式 是 将 一 个 或 两 个 
数字 ， 放 在 \ {与 \} 之 间 ， 有 3 种 变化 ， 如 下 : 


\{n\) 前 置 正则 表达 式 所 得 结果 重 现 n 次 
\{n,\】 ”前 置 正则 表达 式 所 得 的 结果 重 现 至 少 n 次 
\{n,m\} ”前 置 正则 表达 式 所 得 的 结果 重 现 nn 至 m 次 


有 了 区 间 表 达 式 ， 要 表达 像 “ 重 现 5 个 a” 或 是 “ 重 现 10 到 42. 个 G” 就 变 得 很 简单 了 ， 
这 两 项 分 别 是 ; a\{5\} 与 a\{10,42\}。 


n 与 m 的 值 必须 介 于 0 至 RE_DUP_MAX ( 含 ) 之 间 。 RE_DUP_MAX 是 POSIX 定义 的 符号 
型 常数 ， 且 可 通过 getconf 命令 取得 。RE_DUP_MAX 的 最 小 值 为 255， 不 过 部 分 系统 
允许 更 大 值 ， 在 我 们 的 GNU/Linux 系统 中 ， 就 遇 到 很 大 的 值 : 


$ getconf RE_DUP_MRAX 
32767 


3.2.2.4 “文本 匹配 锚 点 

再 介绍 两 个 meta 字符 就 能 完成 整个 BRE 的 介绍 了 。 这 两 个 meta 字符 是 脱 字 符号 (^) 
与 货币 符号 ($) ， 它 们 叫做 错 点 (anehor) ， 因 为 其 用 途 在 限制 正则 表达 式 匹 配 时 ， 针 
对 要 被 匹配 字符 串 的 开始 或 结尾 处 进行 匹配 (^ 在 此 处 的 用 法 与 方 括号 表达 式 里 的 完全 
不 同 ) 。 假 定 现在 有 一 串 要 进行 匹配 的 字 : abcABCdefDEF, 我 们 以 表 3-4 列 举 匹 配 的 范 
例 。 
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表 3-4: 正则 表达 式 内 锚 点 的 范例 


模式 二. . 是 否 匹 配 “ “匹配 文本 { 粗 体 ) /匹配 失败 的 理由 

ABC 是 居中 的 第 4、5 及 6 个 字符 : abcABCdefDEF 
^ABC 否 限定 匹配 字符 串 的 起 始 处 

def 是 居中 的 第 7、8 及 9 个 字符 : abcABCdefDEF 
defs 否 限制 匹配 字符 串 的 结尾 处 

[[:upper:]]\{3\) 是 居中 的 第 4、5 及 6 个 字符 : abcABCdefDEF 
[[:upper:]]\{3\}$ 是 结尾 的 第 10、11 及 12 个 字符 : abcDEFdefDEF 
^[[:alpha:]]\{3\} 是 起 始 的 第 1、2 及 3 个 字符 : abcABCdefDEF 


^ 与 $ 也 可 同时 使 用 , 这 种 情况 是 将 括 起 来 的 正则 表达 式 匹配 整个 字符 串 〈 或 行 )。 有 时 
^$ 这 样 的 简易 正则 表达 式 也 很 好 用 ， 它 可 以 用 来 匹配 空 的 (empty) 字符 串 或 行列 。 例 
如 在 grep 加 上 -v 选 项 可 以 用 来 显示 所 有 不 匹配 于 模式 的 行 , 使 用 .上 面 的 做 法 , 便 能 过 
滤 掉 文件 里 的 空 (empty) 行 。 


例如 ，C 的 源 代 码 在 经 过 处 理 后 ， 变 成 了 #include 文 件 与 #define 宏 时 ,这 种 用 法 
就 很 有 用 了 , 因为 这 样 一 来 你 可 以 了 解 C 编 译 器 实际 上 看 到 的 是 什么 (这 是 一 种 初级 的 
调试 法 ， 但 有 时 你 就 是 要 这 人 么 做 ) 。 扩 展 文件 (expanded file) 里 头 时 常 包 含 的 空白 或 
空 行 通常 会 比 原始 码 更 多 ， 因 此 要 排除 空 行 只 要 ， 


$ cc -E foo.c | grep -v '*^$' > foo.out 预先 删除 空 行 
^ 与 $ 仅 在 BRE 的 起 始 与 结尾 处 具有 特殊 用 途 。 在 BRE 下 ，ab^cd 里 的 ^ 表 示 的 ， 就 


是 自身 (^); 同样 地 ,ef$gh 里 的 $ 在 这 里 表示 的 也 就 是 字面 上 的 货币 字符 。 它 也 可 能 
与 其 他 正则 表达 式 连用 ,例如 \^ 与 \$， 或 是 [$1 ( 注 3)。 


3.2.2.5 ”BRE 运算 符 优 先 级 


在 数学 表达 式 里 , 正则 表达 式 的 运算 符 具 有 某 种 已 定义 的 优先 级 (precedence)，, 指 的 是 
某 个 运算 符 优先 级 较 高 ) 将 比 其 他 运算 符 先 被 处 理 。 表 3-5 提供 BRE 运算 符 的 优先 
级 一 一 由 高 至 低 。 


表 3-5; BRE 运算 符 优先 级 ， 由 高 至 低 


运算 符 “表示 意义 pus 
[..] [==] [::] 用 于 字符 排序 的 方 括号 符号 
\metacharacter 转 义 的 meta 字符 


注 3; [^] 并 非 有 效 的 正则 表达 式 。 请 确认 你 了 解 是 为 什么 。 
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表 3-5: BRE 运算 符 优先 级 ， 由 高 至 低 ( 续 ) 


运算 符 省 2 表示 意 习 世 
[] 方 括号 表达 式 . 

\( \) N\Adigit | 子 表达 式 与 后 向 引用 

* \{ \) | 前 置 单个 字符 重 现 的 正则 表达 式 
无 符号 (no symbol) 连续 


久光 销 点 (Anchors ) 





3.2.3 ”扩展 正则 表达 式 


ERE (Extehded Regular Expressions) 的 含义 就 如 同 其 名 字 所 示 ; 拥有 化 基本 正则 表达 
式 更 多 的 功能 。BRE 与 ERE 在 大 多 数 meta 字 符 与 功能 应 用 上 几乎 是 完全 一 致 ， 但 ERE 
里 有 些 meta 字 符 看 起 来 与 BRE 类 似 ， 却 具有 完全 不 同 的 意义 。 


3.2.3.1 ”匹配 单个 字符 

在 匹配 单个 字符 的 情况 下 , ERE 本 质 上 是 与 BRE 是 一 致 的 。 特别 是 像 一 最 字符 用 以 转 
义 meta 字 符 的 反 斜 杠 , 以 及 方 括号 表达 式 , 这 些 行为 模式 都 与 先前 提 及 的 BRE 相 同 。 较 
有 名 的 一 个 例外 出 现在 awk 里: 其 \ 符 号 在 方 括号 表达 式 内 表示 其 他 的 含义 。 因 此 ,如 
需 匹 配 左 方 括号 、 连 字符 、 右 方 括号 或 是 反 斜 械 ， 你 应 该 用 [\[\-\]\\] 。 这 是 使 用 上 
的 经 验 法 则 。 | 


3.2.3.2 后 向 引用 不 存在 


ERE 里 是 没有 后 向 引用 的 ( 注 4)。 贺 括号 在 ERE 里 具 特 殊 含义 ， 但 和 BRE 里 的 使 用 又 
有 所 不 同 ( 这 点 稍 后 会 介绍 )。 在 BRE 里 ,、( 与 \) 匹配 的 是 字面 上 的 左 括号 与 有 括号。 


3.2.2.3 ”匹配 单个 表达 式 与 多 个 正则 表达 式 


ERE 在 匹配 多 字符 这 方面 ， 与 BRE 有 很 明显 的 不 同 。 不 过 ， 在 * 的 处 理 上 和 BRE 是 相 
同 的 ( 注 5)。 





注 4: 这 在 grep 与 cgrep 命 令 下 有 不 同 的 影响 ， 这 并 非 正则 表达 式 匹 配 能 力 的 问题 ,F 只 是 UNIX 
的 一 种 处 理 方式 而 已 。 


注 5: 。 有 一 个 例外 是 ，* 作为 Se “未 定义 ”的 ,而 在 BRE 中 它 是 指 “符合 字 
面 的 *”， 
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区 间 表 达 式 可 用 于 ERE 中 , 但 它们 是 写 在 花 括 号 里 〈{} ) ， 且 不 需 前 置 反 斜 杠 字 符 。 因 
此 我 们 先前 的 例子 “要 刚好 重 现 5 个 a ”以 及 “ 重 现 10 个 至 42 个 G"”，, 写法 分 别 为 : a{5} 
与 gf104i42} 。 而 \{ 与 \} 则 可 用 以 匹配 字面 上 的 花 括 号 。 Ee ey 
} 时 ，POSIX 特意 保留 其 含义 为 “未 定义 (undefined) 状态 ”。- 


ERE 另 有 两 个 meta 字符 , :可 更 细 腻 地 处 理 匹配 控制 ; 
? 严 配 午 0 个 或 一 个 前 轩 正 则 表达 式 
+ “匹配 于 1 个 或 多 个 前 时 正则 表达 式 


你 可 以 把 ? 想 成 是 “可 选用 的 "， 也 就 是 说 ， 匹配 前 置 正则 表达 式 的 文本 ， 要 么 出 现 现 , 要 
么 没 出 现 。 举例 来 说 , 与 ab?e 匹配 的 有 ， ac 与 abc， 就 这 两 者 1 (与 ab*c 相 较 之 下 ， 
后 者 匹配 于 中 间 有 任意 个 b)。 


+ 字符 在 概念 上 与 * meta 字 符 类 似 ， 不 过 前 置 正则 表达 式 要 匹配 的 文本 在 这 里 至 少 得 出 
现 一 次 。 因 此 , ab+c 匹配 于 abc、abbc、abpbbc, 但 不 匹配 于 ac。 你 当然 可 以 把 ab+tc 
的 正则 表达 式 形式 换 成 abb*c; 无 论 如 何 ， 当 前 置 正则 表达 式 很 复杂 时 , 使 用 + 可 以 少 
打 一 点 字 ， 当 然 也 减少 了 打 错 字 的 几率 ! 


3.2.3.4 ”交替 


方 括 号 表达 式 易 于 表示 “匹配 于 此 字符 ， A 或 …”， 但 不 能 指定 “匹配 于 这 
个 序列 (sequence), 或 其 他 序列 (sequence), 或 … 5 要 入 到 间 考 的 由 的 ， 你 可 以 使 用 
交替 (alternation) 运算 符 ， 即 垂直 的 一 条 线 ， 或 称 为 管道 字符 (|)。 你 可 以 简单 写 好 
两 个 字符 序列 ,再 以 1 将 其 隔 开 ,例如 readlwrite 匹 配 于 read 与 write 两 者 、fagt1slow 
匹配 于 fast 与 siliow 两 者 。 你 还 可 以 使 用 多 个 该 符号 : sleepldozeldream|nod 
offlsluiber 匹配 于 5 个 表达 式 。 ee 


| 字符 为 ERE 运 算 符 里 优先 级 最 低 的。 因此, 左边 会 一 路 扩展 到 运算 符 的 左边 , 一 直到 
一 个 前 置 | 的 字符 ， 或 者 是 到 另 一 个 让 则 表达 式 的 起 始 。 同样 地 ，| 的 右边 也 是 一 路 扩 
展 到 运算 符 的 右边 ， 一 直到 后 续 的 | 字符， 台 是 到 整个 正则 表达 式 的 结 寺 尾 。 这 部 分 将 在 
下 一 节 探 讨 。 


3.2.3.5 ”分 组 和 
你 应 该 已 经 发 现 , “在 ERE 里 ， 我 们 已 提 到 运算 符 是 被 应 用 到 “前 置 的 正则 表达 式 ”。 
是 因为 有 圆 方 括 号 ((.. .) ) 提供 分 组 功能 ， 让 接 下 来 的 运算 符 可 以 应 用 。 人 


(why)+ 匹配 于 一 个 或 连续 重复 的 多 个 why 。 
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在 必须 用 到 交替 (alternation) 时 ， 分 组 的 功能 就 特别 好 用 了 (也 是 必需 的 )。 它 可 以 让 
你 用 以 构建 复杂 并 较 灵活 性 的 正则 表达 式 。 举 例 来 说 , [zt]he (CPUlcomputer) is 
指 的 就 是 : 在 The (或 the) 与 is 之 间 , 含有 CPU 或 computer 的 句子 。 要 特别 注意 
的 一 点 是 ， 圆 括号 在 这 里 是 meta 字符 ， 而 非 要 匹配 的 输入 文本 。 


将 重复 (repetition) 运算 符 与 交替 功能 结合 时 ， 分 组 功能 也 是 一 定 用 得 到 的 。 
readlwrite+ 指 的 是 正好 一 个 read, 或 是 一 个 write 后面 接着 任意 数 个 e 字符 
(writee、writeee 等 )， 比 较 有 用 的 模式 应 该 是 (readalwrite)+， 它 指 的 是 : 有 一 个 
或 重 现 多 个 read， 或 者 一 个 或 重 现 多 个 write。 


当然 , (read 1write)+ 所 指 的 字符 品 中 间 ， 不 允许 有 空白 ,( (readlwrite) 
[[:space:]]*)+ 的 正则 表达 式 看 起 来 虽然 比较 复杂 ， 不 过 也 比较 实际 些 。 乍 看 之 下 ， 
这 可 能 会 搞 不 清楚 ， 不 过 车 把 这 些 组 成 部 分 分 隔 开 来 看 ,其 实 就 不 难 理解 了 。 图 3-1 为 
图 解说 明 。 , 


(something1)+ something1 一 次 或 多 次 出 现 


(something2) [[:space:]]* something1 是 something2， 
可 能 跟着 一 个 空格 字符 


J 
A 


read|write something2 是 "read" 或 "write” 





图 3-1: 读 取 一 个 复杂 的 正则 表达 式 


结论 就 是 : 这 个 单个 正则 表达 式 是 用 以 匹配 多 个 连续 出 现 的 read 或 是 write, 且 中 间 
可 能 被 空白 字符 隔 开 。 


在 [[:space:]] 之 后 使 用 * 是 一 种 判断 调用 (judgment call) 。 使 用 一 个 * 而 非 +， 此 
匹配 可 以 取得 在 行 (或 字符 串 ) 结尾 的 单词 。 但 也 可 能 可 以 匹配 中 间 完全 没有 空白 的 单 
词 。 运 用 正则 表达 式 时 常会 需要 用 到 这 样 的 判断 调用 (judgment call) 。 该 如 何 构建 正 
则 表达 式 ， 需 要 根据 输入 的 数据 以 及 这 些 数据 的 用 途 而 定 。 


最 后 要 说 的 是 : 当 你 将 交替 (alternation) 操作 结合 ^ 与 $ 锁 点 字符 使 用 时 ,分 组 就 非 
常 好 用 了 。 由 于 1 为 所 有 运算 符 中 优先 级 最 低 的 , 因此 正则 表达 式 ^abcalefgh$ 意 思 是 
“匹配 字符 串 的 起 始 处 是 否 有 ab c a ， 或 者 字符 串 结尾 处 是 否 有 e fgh ”， 这 和 
^(abcdlefgh)$ 不 一 样 ， 后 者 表示 的 是 “ 找 一 个 正 是 abcda 和 或 正 是 efgh 的 字符 串 "。 
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3.2.3.6 “ 停 驻 文本 匹配 

“与 $ 在 这 里 表示 的 意义 与 BRE 里 的 相同 : 将 正则 表达 式 停 驻 在 文本 字符 串 (或 行 ) 的 
起 始 或 结尾 处 。 不 过 有 个 明显 不 同 的 地 方 就 是 : 在 ERE 里 , ^ 与 $ 永远 是 meta 字 符 。 所 
以 , 像 ab^ca 与 ef$gh 这样 的 正则 表达 式 仍 是 有 效 的 ， 只 是 无 法 匹配 到 任何 东西 ， 因 
为 ^ 前 置 了 文本 ,与 $ 后 面 的 文本 ,会 让 它们 分 别 无 法 匹配 到 “字符 串 的 开始 ”与 “ 字 
符 串 结尾 "。 正 如 其 他 的 meta 字 符 一 般 ,它们 在 方 括号 表达 式 中 的 确 失去 了 它们 特殊 的 
意义 。 


3.2.3.7 ”ERE 运算 符 的 优先 级 
在 ERE 里 运算 符 的 优先 级 和 BRE 一 样 。 表 3-6 由 高 至 低 列 出 了 ERE 运算 符 的 优先 级 。 


表 3-6; ERE 运算 符 优 先 级 ， 由 高 至 低 


运算 符 a 
[..] [= =] [: :] ”用 于 字符 对 应 的 方 括 导 符号 
\metacharacter 转 义 的 meta 字符 
[] 方 括号 表达 式 

() . 分 组 

人 重复 前 置 的 正则 表达 式 

无 符号 (no symbol) 连续 字符 

容光 销 点 (Anchors ) 








] 交替 (Alternation ) 


3.2.4 ”正则 表达 式 的 扩展 
很 多 程序 提供 正则 表达 式 语法 扩展 ,。 这 类 扩展 大 多 采取 有 反 斜 杜 加 一 个 字符 ; 以 形成 新 的 
运算 符 。 类 似 POSIX BRE 里 \(...\) 与 \{...\} 的 反 斜 杠 。 


最 常见 的 扩展 为 \< 与 \> 运算 符 , 分 别 匹 配 “单词 (word)” 的 开头 与 结尾 。 单 词 是 由 
字母 、 数 字 及 下 划 线 组 成 的 。 我 们 称 这 类 字符 为 单词 组 成 (word-constituent)。 
单词 的 开头 要 么 出 现在 行 起 始 处 ， 要 么 出 现在 第 一 个 后 面 紧 跟 一 个 非 单词 组 成 
(nonword-constituent) 字符 的 单词 组 成 (word-constituent) 字符 。 同 样 的 ， 单 词 的 结 
尾 要 么 出 现在 一 行 的 结尾 处 ,要么 出 现在 一 个 非 单词 组 成 字符 之 前 的 最 后 一 个 单词 组 成 
字符 。 


实际 上 , 单词 的 匹配 其 实 相当 直接 易 懂 。 正 则 表达 式 \<chop 匹 配 于 use chopsticks， 
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但 eat a lambchop 则 不 匹配 ， 同样 地 ，chop\> 则 匹配 于 第 二 个 字符 串 ， 第 一 个 则 不 
匹配 。 需要 特别 注意 的 一 点 是 : 在 \<chop\> 的 表达 式 下 ， 两 个 字符 串 都 不 匹配 。 


虽然 POSIX 标准 化 的 只 有 ex 编辑 器 ,但 在 所 有 商用 UNIX 系统 上 ，ed、ex 以 及 vi 编 
辑 器 都 支持 单词 匹配 ， 而 且 几 乎 已 是 标准 配备 。GNU/Linux 与 BSD 系统 上 附带 的 克隆 
程序 (“clone”version) 也 支持 单词 匹配 ,还 有 emats、vim 与 vile 也 是 。 除 此 之 外 ， 
通常 grep 与 sed 也 会 支持 ， 不 过 最 好 在 系统 里 再 通过 手册 页 (manpage) 确认 一 下 。 


可 处 理 正 则 表达 式 的 标准 工具 的 GNU 版 本 , 通常 还 支持 许多 额外 的 运算 符 , 如 表 3-7 所 
示 。 


表 3-7， 额外 的 GNU 正则 表达 式 运 算 符 


运算 符 含义 0 

\w 匹配 任何 单词 组 成 字符 ， 等 同 于 [[:alnum:]_] 

\W 匹配 任何 非 单 词组 成 字符 ， 等 同 于 [^[:alnum:]_] 

\<\> 匹配 单词 的 起 始 与 结尾 ， 如 前 文 所 述 

\b 匹配 单词 的 起 始 或 结尾 处 所 找到 的 空 字符 串 。 这 是 \< 与 \> 运算 符 的 结合 
注意 : 由 于 awk 使 用 \b 表 示 后 退 字 符 ， 因 此 GNU awk (gawk) 使 用 \y 表 
示 此 功能 

\B 匹配 两 个 单词 组 成 字符 之 间 的 空 字符 串 

Na 分 别 匹配 emacs 缓冲 区 的 开始 与 结尾 。GNU 程序 (还 有 emacs) ee 


视 为 与 ^ 及 $ 同 义 





虽然 POSIX 明白 表示 了 NUL 字符 无 须 是 可 匹配 的 ， 但 GNU 程序 则 无 此 限制 。 若 NUL 
字符 出 现在 输入 数据 里 ， 则 它 可 以 通过 .meta 字符 或 方 括号 表达 式 来 匹配 。 


3.2.5 ”程序 与 正则 表达 式 


有 两 种 不 同 的 正则 表达 式 风格 是 经 年 累 月 的 历史 产物 ,虽然 egrep 风 格 的 扩展 正则 表达 
式 在 UNIX 早期 开发 时 就 已 经 存在 了 ， 但 Ken Thompson 并 不 觉得 有 必要 在 ed 编辑 器 
里 使 用 这 样 全 方位 的 正则 表达 式 (由 于 PDP-11 的 小 型 地 址 空间 、. 扩 展 正 则 表达 式 的 复 
杂 度 ， 以 及 实际 应 用 时 大 部 分 的 编辑 工作 使 用 基本 正则 表达 式 已 足够 了 ， 这 样 的 决定 其 
实 相当 合理 )。 


ed 的 程序 代码 后 来 成 了 grep 的 基础 (grep 为 ed 命令 中 g/re/p 的 缩写 ， 意 即 全 局 
性 匹配 re， 并 将 其 打印 )。ed 的 程序 代码 后 来 也 成 为 初始 构建 sed 的 根基 。 
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就 在 pre-V7 时 期 ，Al Aho 创造 了 egrep，Al Aho 是 贝尔 实验 室 的 研究 人 员 , .他 为 正 
则 表达 式 匹 配 与 语言 解析 的 研究 商定 了 基础 。 egrep 里 的 核心 匹配 程序 代码 ， 日 后 也 被 
awk 的 正则 表达 式 拿 来 使 用 。 


\< 与 \> 运算 符 起 源 于 滑铁卢 大 学 的 Rob Pike、Tom Duff、Hugh Redelmeier, 以 及 
David Tilbrook 所 修改 的 ed 版 本 (Rob Pike 是 这 些 运算 符 的 发 明 者 之 一 ) 。Bil Joy 在 
UCB 时 ， 便 将 这 两 个 运算 符 纳 入 ex 与 vi 编辑 器 ， 自 那 时 起 ， 它 就 广 为 流 传 。 区 间 表 
达 式 源 起 于 Programmer's Workbench UNIX ( 注 6)， 之 后 通过 System IJIII 以 及 此 后 的 
System V， 特 别 将 其 取出 用 于 商用 UNIX 系统 上 。 表 3-8 列 出 的 是 各 种 UNIX 程序 与 其 
使 用 的 正则 表达 式 。 


表 3-8: UNIX 程序 及 其 正则 表达 式 类 型 


类 型 grep sed ed ex/vi more egrepY Sdwk ™ lex ~ 
BRE ® . . . . | | 

ERE . ; 它 浊 - 

NE \> . . . . 许 


lex 是 一 个 很 特别 的 工具 , 通常 是 用 于 语言 处 理 器 中 的 词法 分 析 器 的 构建 。 虽然 已 纳入 
POSIX, 但 我 们 不 会 在 这 里 进一步 讨论 ， 因 为 它 与 Shell 脚 本 无 关 。less 与 pg 虽然 不 
是 POSIX 的 一 部 分 , 但 它们 也 支持 正则 表达 式 。 有 些 系 统 会 有 page 程 序 , 它 本 质 上 和 
more 是 相同 的 ， 只 是 在 每 个 充满 屏幕 的 输出 画面 之 间 ， 会 清除 屏幕 ; 


正如 我 们 在 本 章 开 头 所 提 到 的 : 要 (试图) 解决 多 个 grep 的 矛盾 ，POSIX 决定 以 单个 
grep 程序 解决 。POSIX 的 grep 默认 行为 模式 使 用 的 是 BRE。 加 上 -E 选项 则 它 使 用 
ERE, 及 加 上 -F 选 项 , 则 它 使 用 fgrep 的 固定 字符 捉 匹 配 算法 。 因 此 ,真正 地 遵循 POSIX 
的 程序 应 以 grep -E .. .取代 egrep ...。 不 过 , 因为 所 有 的 UNIX 系统 确实 拥有 它 ， 
且 可 能 已 经 有 许多 年 了 ， 所 以 我 们 继续 在 自己 的 脚本 中 使 用 它 。 

最 后 要 注意 的 一 点 就 是 通常 ，awk 在 其 扩展 正则 表达 式 里 不 支持 区 间 表 达 式 。 直 至 
2005 年 ， 各 种 不 同 厂商 的 awk 版 本 也 并 非 全 面 支持 区 间 表 达 式 。 为 了 让 程序 具有 可 移 


植 性 , 若 需要 在 awk 程序 里 匹配 大 方 括号 ,应 该 以 反 斜 杠 转 义 它 ， 人 
表达 式 里 。 


注 6: Programmer's Workbench (PWB) UNIX 是 用 在 AT&T 里 以 支持 电信 交换 软件 开发 的 变 
化 版 。 它 也 可 以 用 于 商业 用 途 。 
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3.2.6 在 文本 文件 里 进行 蔡 换 


很 多 She 脚本 的 工作 都 从 通过 grep 或 egrep 取 出 所 需 的 文本 开始 。 正则 表达 式 查 找 的 
最 初 结果 ， 往 往 就 成 了 要 拿 来 作 进一步 处 理 的 “原始 数据 (raw data)”。 通 常 ， 文 本 埠 
换 (text substitution ) 至 少 需要 做 一 件 事 ， 就 是 将 一 些 字 以 另 一 些 字 取代 ; 或 者 是 删除 
匹配 行 的 某 个 部 分 。 本 二 SS 


一 般 来 说 ， 执 和 行文 本 替换 的 正确 程序 应 该 是 sed 一 一 流 编辑 器 (Stream Editor) 。 sed 
We ee 当 你 :知道 要 做 好 几 个 变 
这 些 变 更 部 分 写 到 一 个 编 
i Ss sed 存 在 的 目的 就 在 这 里 ( 虽 
然 你 也 可 以 使 用 ed 或 ex 编辑 脚本 , 但 用 它们 来 处 理会 比较 麻烦 , 而 且 用 户 通常 不 会 记 
得 要 存储 原先 的 文件 )。 





我 们 发 现 , 在 Shell 脚本 里 ，seq 主要 用 于 一 些 简单 的 文本 替换 ， 所 以 我 们 先 从 它 开 始 。 
接 下 来 我 们 还 会 提供 其 他 的 后 台数 据 , 并 说 明 seq 的 功能 , 特意 不 在 这 里 提 到 太 多 细节 ， 
是 因为 sea 所 有 的 功能 全 都 写 在 《sed & awk》(O’Reilly) 这 本 书 里 了 , 该 书 已 列 入 参 
Ss 


GNU sed 可 从 fip: Ap gnu. org/gnused/ 效 取 。 这 个 版 本 拥有 相当 多 有 趣 的 扩展 ， . 且 已 
配备 使 用 手册 ,. 还 附带 软件 。GNU 的 sed 使 用 手册 里 有 一 些 好 玩 的 例子 , :还 包括 与 众 
不 同 的 程序 测试 工具 组 。 可 能 最 令 人 感到 不 可 思议 的 是 : UNIX ae 任意 精确 度 计算 程 
序 (arbitrary- -precision Solenlaton: 竟 是 以 sed 所 写成 的 ! 


当然 绝 佳 的 seda 来 源 就 是 Rs id Oa net/ 了 。 这 里 有 连接 到 两 个 Se FAQ 
文件 的 链接 。 第 一 个 是 htip:/www.dreamwvr.com/sed-info/sed-faq.html， 第 二 个 比较 提 
的 FAQ 则 是 fip:Wrtfm.mit.edu/pub/faqs/editor-faq/sed.。 


3.2.7 基本 用 法 


你 可 能 会 常 在 管 道 (pipeline) 中 间 使 用 sed,: 以 执行 替换 操作 。 做法 是 使 用 s- 命 
ee de 用 替代 文本 (replacement text) 替换 匹配 的 文本 ,以 及 
可 选用 的 标志 : 


sed 's/:.*//' /etc/passwd | 删除 第 一 个 冒号 之 后 的 所 有 东西 
sort -u 排序 列表 并 删除 重复 部 分 
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sed 
sed [ -n ] '‘'editing command' [ file ... ] 
sed [ -nn ] -e 'editing command’' ... {[ file ... ] 
sed [ -n -ft script-~-file ... [ file ... ]: a 
用 从 


为 了 编辑 它 的 输入 流 ， 将 结果 生成 到 标准 输出 ， 而 非 以 交互 式 编辑 器 的 方式 
来 编辑 文件 。 虽 然 sed 的 命令 很 多 ， 能 做 很 复 染 的 工作 ， 但 它 最 常用 的 还 是 
处 理 输入 流 的 文本 蔡 换 ， 通 常 是 作为 管道 的 一 部 分 。 
主要 选项 . 
-~e 'editing command' 
将 editing command 使 用 在 输入 数据 上 。 人 就 必 
须 使 用 -e 了。 


-f script-file 
0 : 当 有 多 个 命令 需要 执行 时 ， 此 选项 相 
淄 有用。 
-nn 
”不 是 每 个 最 后 已 修改 结果 行者 正常 打印 ， 浙 是 显 衣 以 号 指定 (处 理 这 的 ) 
的 行 。 


行为 模式 2 
读 取 每 个 输入 文件 的 每 一 行 ， 复 如 没有 文件 的 话 ， 则 是 标准 输入 。 以 每 一 行 
来 说 ,sed 会 执行 每 一 个 应 用 到 输入 行 的 editing command。 结果 会 写 到 标 
准 输 出 (默认 状态 下 ， 或 是 显示 地 使 用 已 命令 及 -了 nn 选项 )。 著 无 -e 或 -f 选 
项 ， 则 sed 会 把 第 一 个 参数 兰 作 是 要 使 用 的 editing command。 








在 这 里 ; /字符 扮演 定 界 符 (delimiter) 的 角色 ,从 而 分 隔 正 则 表达 式 与 替代 文本 
(replacement text) 。 在 本 例 中 ， 替 代 文 本 是 空 的 〈 空 字符 串 null string ) ， 实际 上 会 有 
效 地 删除 匹配 的 文本 。 虽然 /是 最 常用 的 定 界 符 , 但 任何 可 显示 的 字符 都 能 作为 定 界 符 。 
在 处 理 文件 名 称 时 ， 通常 都 会 以 标点 符号 字符 作为 定 界 符 (例如 分 号 、 .冒号 或 逗 点 ) 


find /home/tolstoy -type d -print | 寻找 所 有 目录 

sed 's;/home/tolstoy/;/home/lt/;' | 修改 名 称 ， 注意: 这 里 使 用 分 号 作为 定 界 符 
sed 's/^/mkdir /' | 插入 mkdir 命令 
sh -x 以 Shell 跟踪 模式 执行 


上 述 脚本 是 将 /home/tolstoy 目 录 结 构建 立 一 份 副本 在 /home/1t 下 (可 能 是 为 备份 而 
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做 的 准备 ) 。(fina 命令 在 第 10 章 将 会 介绍 ， 在 本 例 中 它 的 输出 是 /home/tolstoy 底 
下 的 目录 名 称 列表 : 一 行 一 个 目录 。) 这 个 脚本 使 用 了 产生 命令 (generating commands) 
的 手法 ， 局 任 令 内 容 成 为 Shell 玖 输入 法 骨 一 个 功能 很 器 且 第 吕 的 护 交 4 但 却 很 少 人 
这 么 用 ( 注 7)。 


3.2.7.1 ”替换 细节 


先前 已 经 提 过 , 除 斜 杠 外 还 可 以 使 用 其 他 任意 字符 作为 定 界 符 ， 在 正则 表达 式 或 替代 文 
本 里 ， 也 能 转 义 定 界 符 ， 不 过 这 么 做 可 能 会 让 命令 变 得 很 难看 懂 : 


sed ‘s/\/home\/tolstoy\//\ /home\/lt\//' 


在 前 面 的 3.2.2 节 里 , 我 们 讲 到 POSIX 的 BRE 时 , 已 说 明 后 向 引用 在 正则 表达 式 里 的 用 
法 。sed 了解 后 向 引用 ， em 以 表示 “从 这 里 开始 替换 成 匹 
配 第 nn 个 圆 括 号 里 子 表 达 式 的 文本 ”:: : 


$ echo /home/tolstoy/ | sed 's;\(/home\)/tolstoy/;\1/1t/;" 
/home/1lt/ 


sed 将 \1 替 代为 匹配 于 正则 表达 式 的 /home 部 分 ,在 这 里 的 例子 中 , 所 有 的 字符 都 表示 
它 自 己 , 不 过 , 任何 正则 表达 式 都 可 括 在 \ (与 \) 之 间 , 且 后 向 引用 最 多 可 以 用 到 9 个 。 


有 些 其 他 字符 在 将 代 文本 里 也 有 特殊 含义 ,我 们 已 经 提 过 需要 使 用 反 斜 杠 转 义 定 界 符 的 
”情况 。 当然 ， 反 斜 杠 字 符 本 身 也 可 能 需要 转 义 。 最 后 要 说 明 的 是 : & 在 替代 文本 里 表示 
的 意思 是 “从 此 点 开始 替代 成 匹配 于 正则 表达 式 的 整个 文本 "。 举 例 来 说 ， 假设 处 理 
Atlanta Chamber of Commerce SR 想 要 在 广告 中 修改 所 有 对 该 城市 的 描述 ; 


.mv atlga. ‘xml ee eg ee ,ola _ 
”sea "sa/RElarita/&， Lhe capital of the South/’ < atlga. ml CO > atlga. xml 


(作为 一 个 眼 得 上 时 代 的 人 ， 我 们 在 所 有 的 地 方 都 尽 可 能 使 用 XML， 而 不 是 昂贵 的 专用 
字 处 理 程序 )。 这 个 脚本 会 存储 一 份 原始 广告 小 册 的 备份 ,做 这 类 操作 绝对 有 必要 一 一 
特别 是 还 在 学 习 如 何 处 理 正则 表达 式 与 替换 的 时 候 , .然后 再 使 用 sed 
进行 变更 。 


如 果 要 在 赫 代 文本 里 使 用 & 字符 的 字面 意义 ， 请 使 用 和 例如 ; 下 面 的 小 肢 
本 便 可 以 转换 DocBook/XML -文件 里 字面 上 的 反 斜 枉 ， 将 其 转换 为 DocBook 持 对 应 的 
&bsol: 


i ‘s/\\/\bsol’ /9， 





汉人 这 个 脚本 有 小 正 羔 ， 它 无 法 处 理 目录 名 称 含有 空格 的 情况 。 We 
“是 要 有 点 小 技巧 ， 这 部 分 我 们 将 在 第 10 章 介绍 。 
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在 s 命令 里 以 g 结 尾 表示 的 是 : 全 局 性 (global) ， 意 即 以 “替代 文本 取代 正则 表达 式 中 
每 一 个 匹配 的 "。 如果 没 有 设置 g，seG 只 会 取代 第 一 个 匹配 的 。 这 里 来 比较 看 看 有 没有 
设置 g 所 产生 的 结果 : 


$ echo moletoy reads well. Tolstoy writee well. > example.txt 输入 样本 


$ ged 'g/Toletoy/Camus/’' < example.txt : 没有 设置 g 
Camus reads well. Tolstoy writes well. 
$§ ged 'g/Toletoy/Camus/g' < example.txt ”设置 了 "g* 


Camus reads well. Camus writes well. 
鲜 为 人 知 的 是 (可 以 用 来 吓 吓 朋友 ); 你 可 以 在 结尾 指定 数字 , 指示 第 n 个 匹配 出 现 才 要 
被 取代 : 


S sed ee < example.txt 仅 替 代 第 二 个 匹配 者 

VolSEoY reads well. Camus writes well. 
到 目前 为 止 ， 我 们 讲 的 都 是 一 痰 苦 换 一 个 。 虽然 可 以 将 多 个 sea 实体 以 管道 ie 
串 起 来 ， 但 是 给 予 sed 多 个 命令 是 比较 容易 的 。 在 命令 行 上 ,这 是 通过 - e 选项 的 方式 
来 完成 。 每 一 个 编辑 命令 都 使 用 一 个 -e 选项 : 


Sed -e 0 -e LCNYCKEN/ EOWA i xml > rytile2. xml 


不 过 ， 如 果 你 有 很 多 要 编辑 的 项 目 ， 这 种 形式 就 很 朋 怖 了 。 所 以 有 时 ， 将 编辑 命令 全 放 
进 一 个 丢 本 里 ， 再 使 用 sed 搭配- 选项 会 更 好 : 


S$ cat fixup. eed 
S/fooVbaryg “ 
s/chicken/cow/g ， 1 
s/draft animal/horse/g 


$s Be -£f fixup. Bed myfile.xml > mytile2: xml 


你 也 可 以 构建 一 个 结合 - -e 与 - 和 选项 的 脚本 ， 多 本 为 续 的 所 有 编辑 人 人 依次 提供 所 
有 选项 。 此 外 ，POSIX 也 允许 使 用 分 号 将 同一 行 里 的 不 同 命令 隔 开 : 


sed 's/foo/bar/g ; s/chicken/cow/g' myfile.xml > myfile2. Xinl: a 


不 这， 许多 商用 sea 版 本 还 不 支持 此 功能， 人 0 
使 用 此 法 : 


ed 与 其 先驱 ex 与 vi 
管 它 在 哪 。 天 过 代用 全 的 正则 交 这 区 同一 人 正则 过 区 可 再 人 用 


syfcaybar/3 ““ …… 蝎 搞 第 三 个 fdo， 
s//quux/ 现在 更 换 第 一 个 


你 可 以 考虑 一 个 html2xhtml .sed 的 简单 脚本 ， 它 插 HTML 转 欣 为 HTML; 该 脚本 会 
将 标签 转换 成 小 写 ， 然 后 更 改 <br> 标签 为 自我 结束 形式 <br />: 
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s/<H1l>/<hl>/g je : . 斜 杠 为 定 界 符 
s/<H2>/<h2>/g 
‘ss/<H3>/<h3>/g 
s/<H4>/<h4>/g 
s/<HS>/<h5>/g 
s/<H6>/<h6>/g 
Ss:</Hl>:</hl>: 
:</H2>:</h2>: 
:</H3>:</h3>: 
</H4>:</h4>: 
</H5>:</h5> 
</H6>:</h6>:g 
</ {Hh] {Tt] [Mm] [LL] >:<html>:g 
:</ [Hh] [Tt] [Mm] [L1]>:</html>:g 
<[Bb] [Rr]>:<br/>:g 


冒号 为 定 界 符 ， 因 数据 内 容 里 已 有 斜 杠 


aaaaa 


* Wn 


像 这 样 的 脚本 就 可 以 自动 执行 大 量 的 HTML 转 XHTML 了 , XHTML 为 标准 化 的 .以 XML 
为 主 的 HTML 版 本 。 


3.2.8 sed 的 运作 


sed 的 工作 方式 相当 直接 。 命 令 行 上 的 每 个 文件 名 会 依次 打开 与 读 取 。 如 果 没 有 文件 ， 
则 使 用 标准 输入 ,文件 名 “-”( 单 个 破 折 号 ) 可 用 于 表示 标准 输入 。 


sed 读 取 每 个 文件 ， 一 次 读 一 行 ， 将 读 取 的 行 放 到 内 存 的 一 个 区 域 一 称 之 为 模式 空 
闻 (pattern space)。 这 就 像 程 序 语言 里 的 变量 一 样 ; 内 存 的 一 个 区 域 在 编辑 命令 的 指示 
下 可 以 修改 , 所 有 编辑 上 的 操作 都 会 应 用 到 模式 空间 的 内 容 。 当 所 有 操作 完成 后 ,sed 
会 将 模式 空间 的 最 后 内 容 打印 到 标准 输出 ， 再 回 到 开始 处 ， 读 取 另 一 个 输入 行 。 


这 一 工作 过 程 如 图 3-2 所 示 , 脚本 使 用 两 条 命令 ,将 The UNIX systen 赫 代为 The UNIX 


Operating Rt 


3.2.8.1 ”打印 与 否 
-n 选 项 修改 了 sed 的 默认 行为 。 当 提供 此 选项 时 ，sed 将 不 会 在 操作 完成 后 打印 模式 
空间 的 最 后 内 容 。 反之 , 车 在 脚本 里 使 用 p, 则 会 明白 地 将 此 行 显示 出 来 。 举例 来 说 , 我 
们 可 以 这 样 模拟 grep; 


sed -n ， ' /<HTML>/p’ *.html 仅 显 示 <HTML> 这 行 


虽然 这 个 合子 委 简 间 , 但 这 个 功能 在 复杂 的 和 本 里 间 党 好 用 如果 你 使 用 一 个 并 本 文件， 
可 通过 特殊 的 首 行 来 打开 此 功能 ， 


#n : : 关闭 自动 打印 
/<HTML>/p 仅 打印 含 <HTML> 的 行 . 
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The Unix System | 


BE | s/Unix/UNIX/ 半 
: SAU habe Operating ide 





The 三 oe System 
3-2: 在 sed 脚本 中 的 命令 改变 了 模式 空间 


在 Shell 中 , 与 很 多 其 他 UNIX 脚本 式 语 言 一 样 : # 是 注释 的 意思 。sed 注 释 必 须 出 现在 
单独 的 行 里 , 因为 它们 是 语法 型 命令 , 意思 是 : 它们 是 什么 事 也 不 做 的 命令 。 虽 然 POSIX 
指出 , 注释 可 以 放 在 脚本 里 的 任何 位 置 ， 但 很 多 旧版 sed 仅 允许 出 现在 首 行 ， GNU sed 
则 无 此 限制 。 


3.2.9 ”匹配 特定 行 


如 前 所 述 ，sed 默认 地 会 将 每 一 个 编辑 命令 (editing command) 应 用 到 每 个 输入 行 。 而 
现在 我 们 要 告诉 你 的 是 : 还 可 以 限制 一 条 命令 要 应 用 到 哪些 行 ， 只 要 在 命令 前 置 一 个 地 
址 (address) 即 可 。 因此， sed 命令 的 完整 形式 就 是 : 


address command 

以 下 为 不 同 种 类 的 地 址 : 

正则 表达 式 四 
将 一 模式 放置 到 一 条 命令 之 前 , 可 限制 命令 应 用 于 匹配 模式 的 行 。 可 与 s 命 令 搭 配 
使 用 : 


/oldfunc/ s/$/# XXX: migrate to newfunc/ 注释 部 分 源 代 码 


s 命令 里 的 空 模式 指 的 是 “使 用 前 一 个 正则 表达 式 ”: 
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/Tolstoy/ s//& and Camus/g 提 及 两 位 作者 

蝶 终 行 
符号 $ (就 像 在 ed 与 ex 里 一 样 ) 指 “ 最 后 一 行 "。 下 面 的 脚本 指 的 是 快速 打印 文 
件 的 最 后 一 行 ， 
‘sed -n sp "$l 引号 里 为 指定 显示 的 数据 
对 seg 而 言 ， “最 后 一 行 ” 指 的 是 输入 数据 的 最 后 一 行 。 即便 是 处 理 多 个 文件 , seda 
也 将 它们 视 为 一 个 长 的 输入 流 ， 且 $ 只 应 用 到 最 后 一 个 文件 的 最 后 一 行 (GNU 的 
sed 具有 一 个 选项 ， 可 使 地 址 分 开 地 应 用 到 每 个 文件 ， 见 其 说 明文 档 )。 

行 编号 
可 以 使 用 绝对 的 行 编号 作为 地 址 。 稍 后 将 有 介绍 。 

开外 
可 指定 行 的 范围 ， 仅 需 将 地 址 以 逗 点 隔 开 : 
sed -n '10,42p’' foo.xml 仅 打 印 10~42 行 
sed '/fo0/,/bar/ s/baz/quux/g’ 仅 替 换 范 围 内 的 行 


第 二 个 命令 为 “从 含有 foo 的 行 开 始 ， 再 匹配 是 否 有 baz 的 行 ， 再 将 匹配 后 的 结 
果 中 ， 有 baz 的 全 换 成 quux”( 像 ead、ex 这 类 的 检阅 程序 , 或 是 vi 内 的 冒号 命 
令 提示 模式 下 ， 都 认识 此 语法 )。 

:这 种 以 这 点 隔 开 两 个 正则 表达 式 的 方式 称 为 范围 表达 式 (range expression)。 在 
sed 里 ,. 总 是 需要 使 用 至 少 两 行 才能 表达 。 

否定 正则 表达 式 

有 时， 将 命令 应 用 于 不 匹配 于 特定 模式 的 每 一 行 ， 也 是 很 有 用 的 。 通 过 将 ! 加 在 正 
则 表达 式 后 面 就 能 做 到 ， 如 下 所 示 : 
/used/!s/new/used/g 将 没有 usead 的 每 个 行 里 所 有 的 new 改 成 used 
POSIX 标准 指出 : 空白 . (whitespace) 跟随 在 ! 之 后 的 行为 是 “未 定义 的 
(unspecified)”， 并 建议 需 提供 完整 可 移植 性 的 应 用 软件 ， 不 要 在 ! 之 后 放置 任何 
空白 字符 ， 这 明显 是 由 于 某 些 sed 的 古董 级 版 本 仍 无 法 识别 它 。 


例 3-1 说 明 的 是 使 用 绝对 的 行 编号 作为 地 址 的 用 法 ,这 里 是 以 sed 展现 的 head 程序 简 
易 版 。 

例 3-1: 使 用 sed 的 head 命令 

# heaa --- 打印 前 n 行 

堪 

# 语法 :head N file 


count=$1 
sed ${count}q "$2" 
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当 你 引用 head 10 foo.xml 之 后 ，sed 会 转换 成 sed 10g foo.xml。q 命 令 要 求 sed 
马上 离开 ， 不 再 读 取 其 他 输入 ,或 是 执行 任何 命令 。 后 面 的 7.6.1 节 里 ， 我 们 将 介绍 如 
何 让 这 个 脚本 看 起 来 更 像 真 正 的 head 命令 。 Se . 


迄今 为 止 , 我 们 看 到 的 都 是 sea 以 / 字符 隔 开 模式 以 便 查找 。 在 这 里 ,我们 要 告诉 你 如 
何在 模式 内 使 用 不 同 的 定 罕 符 : 这 通过 在 字符 前 面 加 上 一 个 反 斜 杠 实 现 : 


$ grep tolstoy /etc/passwd 显示 原始 行 
”tolstoy:x:2076:10:Leo Tolstoy: /home/tolstoy: /bin/bash 
. $ Bed -n '\:tolstoy: s;;Tolstoy;p' /etc/passwd 改变 定 界 符 


Tolstoy:x:2076:10:Leo Tolstoy: /home/tolstoy: /pin/bash 


本 例 中 ,以 冒号 隔 开 要 查找 的 模式 ,而 分 号 则 扮演 s 命 令 的 定 界 符 角色 (编辑 上 的 操作 
其 实 不 重要 ， 我 们 的 重点 是 介绍 如 何 使 用 不 同 的 定 界 符 ) 。 | 


3.2.10 有 多 少 文本 会 改动 


有 个 问题 我 们 一 直 还 没 讨论 到 ;有 多 少 文本 会 匹配 ?事实 上 ， 这 应 该 包含 两 个 问题 。 第 
二 个 问题 是 : 从 哪儿 开始 匹配 ?执行 简单 的 文本 查找 , 例如 使 用 grep 或 egrep 时 , 则 
这 两 个 问题 都 不 重要 ， 你 只 要 知道 是 否 有 一 行 是 匹配 的 ， 若 有 ， 则 看 看 那 一 行 是 什么 。 
至 于 在 这 个 行 里 ， 是 从 哪儿 开始 匹配 ， 或 者 它 扩展 到 哪里 ， 已 经 不 重要 了 。 


但 如 果 你 要 使 用 sea 执 行文 本 替换 , 或 者 要 用 awk 写 程序 ， 这 两 个 问题 的 答案 就 变 得 非 
常 重要 了 (如 果 你 每 天 者 在 文本 编辑 器 内 工作 ， 这 也 算是 个 重要 议题 ， 只 是 本 书 的 重点 
不 在 文本 编辑 器 ) 。 


这 两 个 问题 的 答案 是 ， 正则 表达 式 匹配 可 以 匹配 整个 表达 趟 的 输入 文本 中 最 长 的 - 最 左 

边 的 子 字符 串 。 除 此 之 外 ， 匹 配 的 空 (null) 字符 串 ， 则 被 认为 是 比 完全 不 匹配 的 还 长 

(因此 , 就 像 我 们 先前 所 解释 的 ,正则 表达 式 : ab*c 匹配 文本 ac，, 而 b* 则 成 功 地 匹配 

于 a 与 ec 之 间 的 null 字 符 串 ) 。 再 者 ，POSIX 标准 指出 :“ 完 全 一 致 的 匹配 ， 指 的 是 自 最 

左边 开始 匹配 、 针 对 每 一 个 子 模式 、 由 左 至 右 , 必须 匹配 到 最 长 的 可 能 字符 申 ”。( 子 模 

0 .为 此 目的 ， GNU 的 程序 通常 也 会 在 了 RE 里 以 
\) 提供 此 功能 ) 。 


如 果 sed 要 替代 由 正则 表达 式 匹 配 的 文本 ， 那么 确定 访 正 则 表达 式 匹 配 的 字 不 会 太 少 或 
太 多 就 非常 重要 了 。 这 里 有 个 简单 例子 : 


:$ echo 二 writes well | ged :8/Toletoy/camues/: ”使 用 固定 字符 串 
Camus. writes well : ; 


当然 ，sed 可 以 使 用 完整 的 正则 表达 式 。 这 里 就 是 要 告诉 你 ， 了 和解 “从 最 长 的 最 左边 
(longest leftmost)” 规 则 有 多 的 重要 : 
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$ echo Tolstoy is worldly | sed 's/T.*y/Camus/! 试 试 正 则 表达 式 
Camus 结果 呢 ? 

很 明显 , 这 里 只 是 要 匹配 Tolstoy, 但 由 于 匹配 会 扩展 到 可 能 的 最 长 长 度 的 文本 量 ， 所 

以 就 一 直 找 到 worldly 的 y 了 ! 你 需要 定义 的 更 精确 些 : 


$ echo Tolstoy is worldly | sed ee ll*y/Cams/" 
Camus is worldly 


通常 , 当 开发 的 脚本 是 要 执行 大 量 文本 剪贴 和 排列 组 合 时 , 你 会 希望 谨慎 地 测试 每 样 东 
西 ， 确 认 每 个 步骤 都 是 你 要 的 一 一 尤其 是 当 你 还 在 学 习 正 则 表达 式 里 的 微妙 变化 的 阶 
段 的 时 候 。 


最 后 ， 正 如 我 们 所 见 到 的 ,在 文本 查找 时 有 可 能 会 匹配 到 null 字符 串 。 而 在 执行 文本 替 
代 时 ， 也 人 允许 你 插入 文本 : 

$ echo abc | sed 's/b*/1/' 替代 第 一 个 匹配 成 功 的 

labc 


$ echo abc | sed 's/b*/1/g' 替代 所 有 匹配 成 功 的 
lalcl : 


请 留意 ，b* 是 如 何 匹 配 在 abc 的 前 面 与 结尾 的 null 字符 串 。 


3.2.11 行 v.s. 字符 串 


了 解 行 (line) 与 字符 串 (string) 的 差异 是 相当 重要 的 。 大 部 分 简易 程序 都 是 处 理 输入 
数据 的 行 , 像 grep 与 egrep, 以 及 sed 大 部 分 的 工作 (99%) 都 是 这 样 。 在 这 些 情况 下 ， 
不 会 有 内 雹 的 换行 字符 出 现在 将 要 匹配 的 数据 中 , “与 $ 则 分 别 表示 行 的 开头 与 结尾 


然而 ,对 可 应 用 正则 表达 式 的 程序 语言 ， 例 如 awk、Perl 以 及 Python， ee 
是 字符 串 。 若 每 个 字符 串 表示 的 就 是 独立 的 一 行 输入 , 则 ^ 与 $ 仍 旧 可 分 别 表示 行 的 
头 与 结尾 。 Ts 
界 符 ,所 以 有 可 能 单独 的 输入 “ 行 ”( 记 录 ) 里 会 有 内 嵌 的 换行 字符 。 这 种 情况 下 , “与 
$ 无 法 匹配 内 风 的 换行 字符 ， 它们 只 用 来 表示 字符 串 的 开头 与 结尾 。 当 你 开始 使 用 可 程 
序 化 的 软件 工具 时 ， 这 一 点 ， 请 牢记 在 心 。 


3.3 “字段 处 理 


很 多 的 应 用 程序 , 会 将 数据 视 为 记录 与 字段 的 结合 , 以 便于 处 理 。 一 条 记录 (record) 指 
的 是 相关 信息 的 单个 集合 , 例如 以 企业 来 说 , 记录 可 能 含有 顾客 、 供 应 商 以 及 员工 等 数 
据 ， 以 学 校 机 构 来 说 ， 则 可 能 有 学 生 数 据 。 而 字段 (field) 指 的 就 是 记录 的 组 成 部 分 ， 
例如 姓 、 名 或 者 街道 地 址 。 
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3.3.1 ”文本 文件 惯例 


由 于 UNIX 鼓 励 使 用 文本 型 数据 , 因此 系统 上 最 常见 的 数据 存储 类 型 就 是 文本 了 , 在 文 
本 文件 下 , 一 行 表示 一 条 记录 。 这 里 要 介绍 的 是 在 一 行内 用 来 分 陋 字段 的 两 种 惯例 。 首 
先是 直接 使 用 空白 《whitespace) ， 也 就 是 用 空格 键 (space) 或 制 表 (tab) 键 ， 


$ cat myapp.data 


# model units sold salesperson 
xj11 23 jane 

rj45 12 joe 

cat6 65 chris 


本 例 中 ， # 字 符 起 始 的 行 表示 注释 ， 可 忽略 (这 是 一 般 的 习惯 ,注释 行 的 功能 相当 好 用 ， 
不 过 软件 必须 可 忽略 这 样 的 行 才 行 )。 各 字段 都 以 任意 长 度 的 空 = 格 (space) 或 制 表 (Tab) 
字符 隔 开 。 第 二 种 惯例 是 使 用 特定 的 定 界 符 来 分 隔 字 段 ， 例 如 冒号 : 

$ cat myapp.data 

# model:units sold:salesperson 

xj11:23:jane 

rj45:12:joe ， 

caté:65:chris 


两 种 惯例 都 有 其 优 缺 点 。 使 用 空白 作为 分 隔 时 ， 字段 内 容 就 最 好 不 要 有 空白 (车 你 使 用 
制 表 字符 (Tab) 作 分 隔 ， 字 段 里 有 空格 是 不 会 有 问题 的 ， 但 这 么 做 视觉 上 会 混淆 ， 因 
为 你 在 看 文件 时 , 很 难 马 上 分 辨 出 它们 的 不 同 )。 反 过 来 说 , 若 你 使 用 显 式 的 定 界 符 , 那 
么 该 定 界 符 也 最 好 不 要 成 为 数据 内 容 。 请 你 尽 可 能 小 心地 选择 定 界 符 , 让 定 界 符 出 现在 
数据 内 容 里 的 可 能 性 降 到 最 低 或 不 存在 。 











注意 : 这 两 种 方式 最 明显 的 不 同 ， 便 是 在 处 理 多 个 连续 重复 的 定 界 符 之 时 。 使 用 空白 
(whitespace) 分 隔 时 , 通常 多 个 连续 出 现 的 空格 或 制 表 字 符 都 将 看 作 一 个 定 界 符 。 然 而 , 车 
使 用 的 是 特殊 字符 分 隔 ， 则 每 个 定 界 符 都 隔 开 一 个 字段 ， 例 如 , 在 myapp .data 的 第 二 个 
版 本 里 使 用 的 两 个 留 号 字符 (“: :”) 则 会 分 隔 出 一 个 空 的 字段 。 








以 定 界 符 分 隔 字 7 段 最 好 的 例子 就 是 /etc/passwd 了 ， 在 这 个 文件 里 ， 一 行 表 示 系 统 里 
的 一 个 用 户 , 每 个 字段 都 以 冒号 隔 开 。 在 本 书 中 , 很 多 地 方 都 会 以 /etc/passwd 为 例 ， 
因为 在 系统 管理 工作 中 ， 很 多 时 候 都 是 在 处 理 这 个 文件 。 如 下 是 该 文件 的 典型 例子 : 


tolstoy:x:2076:10:Leo Tolstoy:/home/tolstoy:/bin/bash 


该 文件 含有 7 个 字段 ， 分 别 是 : 
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1。 用 户 名 称 ee 


2. ， 加 密 后 的 密码 .( 如 账号 为 停 用 状态 ， 此 处 为 一 个 性 号 ， 或 是 若 加 密 后 的 密码 文件 存 
储 于 另外 的 /etc/shadow 里 ， 则 这 里 也 可 能 是 其 他 字符 )。 


用 户 ID 编号 。. 

用 户 组 ID 编号 。 

用 户 的 姓名 ， 有 时 会 另 附 其 他 相关 数据 (办公室 号 码 、 电 话 等 ) 。 
根 上 县 录 。 

登录 的 Shell。 


~ om 


某 些 UNIX 工 具 在 处 理 以 空 自 界定 字段 的 文件 时 ， 做 得 比较 好 ， 有 些 则 是 以 定 界 符 分 隔 
字段 比较 好 ， 更 有 其 他 的 工具 两 种 方式 都 和 6 处 理 得 当 ， 这 部 分 我 们 稍 后 会 介绍 ， 


3.3.2 ”使 用 cut 选 定 字段 


cut 命令 是 用 来 剪 下 文本 文件 里 的 数据 , 文本 文件 可 以 是 字段 类 型 或 是 字符 类 型 。 后 一 
种 数据 类 型 在 遇 到 需要 从 文件 里 剪 下 特定 的 列 时 , 特别 方便 。 请 注意 : 一 个 制 表 字 符 在 
此 被 视 为 单个 字符 ( 注 8)。 


举例 来 说 ， 下 面 的 命令 可 显示 系统 上 每 个 用 户 的 登录 名 称 及 其 全 名: 


“Seut -ad : -ff 1,5 /etc/pasgwd ”取出 字段 . | 
root*root es 人 管理 者 账号 ，，. 
tolstoy:Leo Tolstoy 实际 用 户 - 


austen:Jane Austen 
camus:Albert Camus 


通过 泛 择 其 他 字段 编写， 还 可 以 取出 每 个 用 户 的 要 目录 : 


$ eut -d : -f 6 /etc/pasewd ”'' :取出 根 目录 
/root ”管理 账号 
/home/tolstoy 实际 用 户 
/home/austen . 


/home/camus “ 


通过 字符 列表 做 剪 下 操作 有 时 是 很 方便 的 。 例 如 ， 你 只 笋 取出 命令 1s -1 的 输出 结果 
中 的 文件 权限 字段 ， 





注 8: 这 可 通过 expand 与 unexpand 改变 其 定义 。 见 expand(1) 手 册页 。 
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Cut 汪汪 总 


语法 
-cut -C list Tt BG se Te 
‘cut -上 ist [ -da delim ] 于 FI 
用 途 
从 输入 文件 中 选择 一 或 多 Ee 配合 管道 (pipeline) ， 可 再 
做 进一步 处 理 。 : 
主要 竟 项 
-Cc list 
以 字符 为 主 , 执行 前 下 的 操作 。1ist 为 字符 编号 或 一 段 范 围 的 列表 (以 
运 点 隔 开 )， 例 如 1,3,5-125.42。 


-d delim 
通过 -ff 选项 ,使 用 Gelim 作 为 定 界 符 。 路 认 的 定 界 符 为 制 表 字符 (Tab)， 
-上 list 
以 字段 为 主 ， 作 前 下 的 操作 。 人 
点 陪 开 )。 


行为 模式 
剪 下 输入 字符 中 指定 的 字段 或 指定 的 范围 。 若 处 理 的 是 字段 ， 则 定 界 符 隔 开 
的 即 为 各 字段 ， 而 输出 时 字段 也 以 给 定 的 定 界 符 隔 开 。 党 命令 行 没有 指定 文 
件 ， 则 读 取 标 准 输 入 。 见 正文 中 的 范例 。 


于 POSIX 系统 下 ，cut 识别 多 字 节 字符 。 因 此 ,， “字符 (character)” 与 “ 字 
节 (byte)” 意 义 不 同 。 详 细 内 容 见 cut(1) 的 手册 页 。 

有些 系统 对 输入 行 的 大 小 有 所 限制 ; 亡 淇 是 含有 多 字 节 字符 . cpt 
'characters) 时 ,这 点 请 特别 留意 。 





$ ls -1 1 cut ~-c'1-10. . 
total. 2878 . 

-riW-r--r-- 

Grwxr-xr-x 

-Ir--r--r-= 

-IW-r-~I~- 


Lt 


不 过 这 种 用 法 比 使 用 字段 的 风险 要 大 。 因 为 你 无 法 保证 行内 的 每 个 字段 长 度 总 是 一 样 的 。 
一 般 来 说 ， 我 们 偏好 以 字段 为 基础 来 提取 数据 。 
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3.3.3 ”使 用 join 连接 字段 


join 命令 可 以 将 多 个 文件 结合 在 一 起 , 每 个 文件 里 的 每 条 记录 , 都 共享 一 个 键 值 (key ) ， 
键 值 指 的 是 记录 中 的 主 字段 , 通常 会 是 用 户 名 称 、 个 人 姓氏 、 员 工 编号 之 类 的 数据 。 举 


例 来 说 ,， 有 两 个 文件 , 一 个 列 出 所 有 业务 员 销 售 业绩 , 一 个 列 出 每 个 业务 员 应 实现 的 业 
绩 : 





join 


语法 
join [ options ... ] filel file2 
用 途 - 
以 共同 一 个 键 值 ， 将 已 存储 文件 内 的 记录 加 以 结合 
主要 选项 
-1 Field 
-2 field2 


标明 要 结合 的 字段 。-1 field1 指 的 是 从 filel 取 出 field1, 而 -2 
field2 指 的 则 为 从 file2 取 出 fie1d2。 字 段 编 号 自 1 开 始 ， 而 非 0。 
-~O file.field 
` 输出 File 文 件 中 的 field 字 段 。 一 般 的 字段 则 不 打印 。 除 非 使 用 多 个 
. -0 选项 ， 即 可 显示 多 个 输出 字段。 
-t separator ” 
使 用 separator 作 为 输入 字段 分 隔 字 符 ， 而 非 使 用 空白 。 此 字符 也 为 输 
出 的 字段 分 隧 字 符 。 
a. 并 根据 共同 键 值 结合 多 笔记 录 。 默认 以 空白 分 陪 字 
。 输 出 结果 则 包括 共同 键 值 、 来 自 filel 的 其 余 记录 ， 接 着 file2 的 
Ce ( 指 除 了 和 键 值 外 的 记录 )。 若 filel 为 -， 则 join 会 读 取 标准 
输入 。 每 个 文件 的 第 一 个 字段 是 用 来 结合 的 默认 键 值 ; 可 以 使 用 -1 与 -2 
更 改 之 。 默认 情况 下 , 在 两 个 文件 中 未 含 键 值 的 行将 不 打印 (已 有 选项 可 
改变 ， 见 join(1) 手 册页 )。 
侣 从 
-1 与 -2 选项 的 用 法 是 较 新 的 。 在 较 旧 的 系统 上 ， 可 能 得 用 : -jl field1 
与 -j2 field2。 
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$ cat galees 显示 sales 文件 . 
# 业务 员 数 据 注释 说 明 

# 业务 员 其 

joe 100 

jane 200 

herman 150 

chris ” .300 

$ cat quotae 显示 quotas 文件 
# 配额 

# 业务 员 配额 

joe 50 

jane 75 

herman 80 

chris 95 


每 条 记录 都 有 两 个 字段 : 业务 员 的 名 字 与 相对 应 的 量 。 在 本 例 中 , 列 与 列 之 间 有 多 个 空 
白 ， 从 而 可 以 排列 整齐 。 


为 了 让 join 运作 得 到 正确 结果 ， 输 入 文件 必须 先 完成 排序 。 例 3-2 里 的 程序 merge- 
sales .sh 即 为 使 用 join 结合 两 个 文件 。 


例 3-2: merge-sales.sh 
#1 /bin/sh 
# merge-sales.sh 


# 
# 结合 配额 与 业务 员 数据 


# 删除 注释 并 排序 数据 文件 
sed ‘:/^#/d’' quotas | Sort > quotas.sorted 
sed '/^#/d' sales | Sort > Sales.Sorted . 


# 以 第 一 个 键 值 作 结合 ， 将 结果 产生 至 标准 输出 


join quotas.sorted sales.sorted 


# 删除 缓存 文件 


Im quotas.sorted sales.sorted 


首先 , 使 用 sed 删除 注释 ,然后 再 排序 个 别 文件 。 排 序 后 的 缓存 文件 成 为 join 命令 的 
输入 数据 ， 最 后 删除 缓存 文件 。 这 是 执行 后 的 结果 ， 


$ ./merge-sales.sh 
chris 95 300 
herman 80 150 

Jane .75 200 

joe 50 100 
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3.3.4 ”使 用 awk 重新 编排 字段 

awk 本 身 所 提供 的 功能 完备 ， 已 经 是 一 个 很 好 用 的 程序 语言 了 。 我 们 在 第 9 章 会 好 好 地 
介绍 该 语言 的 精髓。 虽然 awk 能 做 的 事 很 多 ,但 它 主要 的 设计 是 要 在 Shell 脚本 中 发 挥 
所 长 :做 一 些 简 易 的 文本 处 理 , 例如 取出 字段 并 重新 编排 这 一 类 。 本 节 , 我 们 将 介绍 awk 
的 基本 概念 ， 随 后 你 看 到 这 样 的 “ 单 命令 行程 序 (one-liners)” 就 会 比较 了 解 了 。 


3.3.4.1 ”模式 与 操作 
awk 的 基本 模式 不 同 于 绝 大 多 数 的 程序 语言 。 它 其 实 比 较 类 似 于 sed: 


awk 'program' [ file ... ] 


awk 读 取 命 令 行 上 所 指定 的 各 个 文件 (车 无, 则 为 标准 输入 )， 一 次 读 取 一 条 记录 ( 行 )。 
再 针对 每 一 行 ， 应 用 程序 所 指定 的 命令 。awk 程序 基本 架构 为 : -_ 


pattern { action } 3 1 
pattern { action } 


pattern 部 分 几乎 可 以 是 任何 表达 式 , 但 是 在 单 命令 行程 序 里 , 它 通常 是 由 和 斜 杠 括 起 来 
的 ERE。action 为 任意 的 awk 语 句 , 但 是 在 单 命令 行程 序 里 ,通常 是 一 个 直接 明了 的 
print 语句 ( 稍 后 有 范例 说 明 )。 


Pattern 或 是 action 都 能 省 略 (当然 , 你 不 会 两 个 都 省 略 吧 ? ) 。 省 略 Pattern， 则 
会 对 每 一 条 输入 记录 执行 action， 省 略 action 则 等 同 于 { print .了 ; .将 打 显 示 整 条 
记录 ( 稍 后 将 会 介绍 ) 。 大 部 分 单 命令 行程 序 为 这 样 的 形式 : 


.。 | awk '{ print some-stuff }' | ， 


对 每 条 记录 来 说 ，awk 会 测试 程序 里 的 每 个 Pattern。 若 模式 值 为 真 (例如 某 条 记录 匹 
配 于 某 正则 表达 式 ,或 是 一 般 表达 式 计算 为 真 )， 则 awk 便 执行 action 内 的 程序 代码 。 


3.3.4.2 字段 


awk 设计 的 重点 就 在 字段 与 记录 上 : awk 读 取 输 入 记录 (通常 是 一 些 行 )， 然后 自动 将 
各 个 记录 切 分 为 字段 。awk 将 每 条 记录 内 的 字段 数目 ， 存 储 到 内 建 变量 NF。 


默认 以 空白 分 隔 字段 一 一 例如 空格 与 制 表 字符 (或 两 者 混用 ), 像 join 那样。 这 通常 
就 足够 使 用 了 ， 不 过 ， 其 实 还 有 其 他 选择 : 你 可 以 将 FS 变量 设置 为 一 个 不 同 的 值 ， 也 
就 可 以 变更 awk 分 隔 字 段 的 方式 。 如 使 用 单个 字符 , 则 该 字符 出 现 一 次 , 即 分 隔 出 一 个 
字段 ( 像 cut -a 那样 )。 或 者 awk 特别 之 处 就 是 : 也 可 以 设置 它 为 一 个 完整 的 ERE， 
这 种 情况 下 ， 每 一 个 匹配 在 该 ERE 的 文本 都 将 视 为 字段 分 隔 字符 。 
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如 需 字段 值 ， 则 是 搭配 $ 字符 。 通常 $ 之 后 会 接着 一 个 数值 常数 ,也 可 能 是 接着 一 个 表 
达 式 ， 不 过 多 半 是 使 用 变量 名 称 。 列举 几 个 例子 如 下 ， 


awk '{ print $1:}" 2 打印 第 工 个 字 段 SS 

awk '{ print $2, $5 ]， 打印 第 2 与 第 5 个 字段 (未 指定 pattern) : 
awk '{ print $1, $NF }* ~ “打印 第 1 个 与 最 后 一 个 字段 (未 指定 pattern) 
awk 'NF > 0 { print $0 ]: 打印 非 空 行 (指定 pattern 与 action) 


awk :NE > 0， 同上 (未 指定 action， 则 默认 为 打印 ) 
比较 特别 的 字段 是 编号 0， 表示 整 条 记录 。 
3.3.4.3 ”设置 字段 分 隔 字符 
在 一 些 简单 程序 中 ; 你 可 以 使 用 - = 选项 修改 证 段 分 隔 字符 。 例如 ， 显示 /etcypasswa 
文件 里 的 用 户 名 称 与 全 名 ， 你 可 以 : | 


$ awk -F: ':{ print $1, $5 }! /etc/passwd 处 理 /etc/passwd 


root root - A 账号 
tolstoy Leo Tolstoy 实际 用 户 


austen Jane Austen 
camus Albert Camus 


-了 选项 会 自动 地 设置 FS 变量 。 请 注意 ， 程 序 于 不 必 直 接 参 照 FS 变量 ， 也 不 用 必须 管理 
读 取 的 记录 并 将 它们 分 割 为 字段， awk 会 自动 完成 这 些 事 。 


你 可 能 已 经 发 现 ， 每 个 输出 字段 是 以 一 个 空格 来 分 隔 的 一 即便 是 输入 字段 的 分 隔 字 
符 为 冒号 。awk 的 输入 、 输 出 分 隔 字 符 用 法 是 分 开 的 , 这 点 与 其 他 工具 程序 不 同 。 也 就 
是 说 ， 必须 设置 OFS 变量 ， 改变 输出 字段 分 隔 字符 。 方式 是 在 命令 行 里 使 用 -Vv 选项 ， 
这 会 设置 awk 的 变量 。 其 值 可 以 是 任意 的 字符 串 。 例 如 


$ awk -F: -V 'OFS=**': :if print $1, $5 }’' /etc/pasewd 处 理 /etc/passwd 
root**root . So 管理 者 账号 
tolstoy**Leo Tolstoy 实际 用 户 


austen**Jane Austen 
Camus**Albert Camus 


稍 后 各 本 以 而 到 议定 这 富 守 号 的 入 他 旋 式 。 碟 计 屠 富有 共 时 同班 角 ， de a 
定 。 
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3.3.4.4 “打印 行 

就 像 我 们 已 经 所 介绍 过 的 ; 大 多 数 时 候 , 你 只 是 想 把 选 定 的 字段 显示 来 ， 或 者 重新 安排 
其 顺序 。 简 单 的 打印 可 使 用 print 语句 做 到 , 只 要 提供 给 它 需 要 打印 的 字段 列表 、 变量 
或 字符 串 即 可 : 


$ awk -F: '{ print "Uger", $1, "isg really", $5 }' /etc/paseswd 
User root is really root 


User tolstoy is really Leo Tolstoy 
User austen is really Jane Austen 
User camus is really Albert Camus 


简单 明了 的 print 语句 ， 如 果 没 有 任何 参数 ， 则 等 同 于 print 即 显示 整 条 记录 。 


以 刚才 的 例子 来 说 , 在 混合 文本 与 数值 的 情况 下 ， 多 半 会 使 用 awk 版 本 的 printf 语 句 。 
这 和 先前 在 2.5. 4 节 所 提 及 的 Shell (与 C) 版 本 的 printf 语句 相当 类 似 ， 这 里 就 不 再 
重复 。 以 下 是 把 上 例 修改 为 使 用 printf 语句 的 用 法 : 


$ awk -F: '{ printf:"User %9 is really %es\n", $1, $5 }' /etc/pasewd 
User root is really root 


User tolstoy is really Leo Tolstoy 
User austen is really Jane Austen 
User camus is really Albert Camus 


awk 的 print 语句 会 自 动 提供 最 后 的 换行 字符 ， 就 像 Shell 层级 的 echo 与 printf 那 
样 ， 然而， 如 果 使 用 printf 语 名 ， 则 用 户 必 须要 通过 \n 转 义 序列 的 使 用 自己 提供 它 。 


注意 ， 请 记得 在 print 的 参数 间 用 各 点 隔 开 1 否则 ， awk 将 连接 相 邻 的 所 有 值 ， 


s ‘awk -F: '{ print "User" $1 : ,1s really" $5 ) /etc/passwd 
Userrootis reallyroot 


UscLt eltovie reallyLeéo Tolstoy 
Useraustenis reallyJane Austen 
Usercamusis reallyAlbert Camus 


这 样 将 所 有 字符 串 连 在 一 起 应 该 不 是 你 要 的 . 忘 了 加 上 逗 点 ,这 是 个 常见 又 难 找到 的 错误 。 











an 


3.3.4.5 ”起 始 与 清除 
BEGIN 与 END 这 两 个 特殊 的 “模式 ”, 它们 提供 awk 程 序 起 始 (startup) 与 清除 (cleanup) 
操作 。 常 见于 大 型 awk 程序 中 ， 且 通常 写 在 个 别 文件 里 ， 而 不 是 在 命令 行 上 
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BEGIN { ”起 始 操作 程序 代码 (startup code) } 

pattern1 { actionl } 

pattern2 { action2 } 

END { ”清除 操作 程序 代码 (cleanup code) } 
BEGIN 与 END 的 语句 块 是 可 选用 的 。 如 需 设置 ,习惯 上 (但 不 必须 ) 它们 应 分 别 置 于 
awk 程序 的 开头 与 结尾 处 。 你 可 以 有 数 个 BEGIN 与 BND 语句 块 ，awk 会 按照 它们 出 现 


在 程序 的 顺序 来 执行 ， 所 有 的 BEGIN 语句 块 都 应 该 放 在 起 始 处 ， 而 所 有 END 语句 块 也 
应 放 在 结尾 。 以 简单 程序 来 看 ，BEGIN 可 用 来 设置 变量 : 


$ awk ‘'BEGIN { FS = ":" ; OFS = "**" } 使 用 BEGIN 设置 变量 

> { print $1, $5 }' /etc/passewd 被 引用 的 程序 继续 到 第 二 行 
root**root 

pe Tolstoy 输出 ， 如 前 


austen**Jane Austen 
camus**Albert Camus 


警告 : POSIX 标 准 中 描述 了 awk 语言 及 其 程序 选项 。POSIX awk 是 构建 在 所 谓 的 “新 awk” 上 ， 
首 度 全 球 发 布 是 在 1987 年 的 System V Release 3.1 版 ， 且 在 1989 年 的 System V Release 
4 版 中 稍 作 修正 。 


但 是 ， 直 到 2005 年 底 ，Solaris 的 /binyawk 仍然 还 是 原始 的 、1979 年 的 awk V7 版 ! 在 
Solaris 系统 上 ， 你 应 该 使 用 /usr/xpg4/bin/awk, 或 参考 第 9 章 , 使 用 awk 自由 下 载 版 
中 的 一 个 。 


3.4 ”小 结 


如 需 从 输入 的 数据 文件 中 取出 特定 的 文本 行 , 主要 的 工具 为 grep 程 序 。 POSIX 采 用 三 
种 不 同 grep 变 体 : grep、egrep 与 fgrep 的 功能 , 整合 为 单个 版 本 , 通过 不 同 的 选项 ， 
分 别提 供 这 三 种 行为 模式 。 


虽然 你 可 以 直接 查找 字符 串 常数 , 但 是 正则 表达 式 能 提供 一 个 更 强大 的 方式 , 描述 你 要 
找 的 文本 。 大 部 分 的 字符 在 匹配 时 ， 表 示 的 是 自己 本 身 ， 但 有 部 分 其 他 字符 扮演 的 是 
meta 字 符 的 角色 ,也 就 是 指定 操作 ,例如 “匹配 0 至 多 个 的 ……”、“ 匹 配 正 好 10 个 的 ……” 
等 。 


POSIX 的 正则 表达 式 有 两 种 : 基本 正则 表达 式 (BRE) 以 及 扩展 正则 表达 式 (ERE)。 哪 
个 程序 使 用 哪 种 正则 表达 式 风格 , 是 根据 长 时 间 的 实际 经 验 , 由 POSIX 制定 规格 , 简化 
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到 只 剩 两 种 正则 表达 式 的 风格 。 通常 , ERE 比 BRE 功 能 更 强大 , 不 过 不 见得 任何 情况 下 
都 是 这 样 。 

正则 表达 式 对 于 程序 执行 时 的 locale 环 境 相当 敏感 ; 方 括号 表达 式 里 的 范围 应 避免 使 用 ， 
改 用 字符 集 ， 例 如 [[:alnum:]] 较 佳 。 另 外 ,许多 GNU 程序 都 有 额外 的 meta 字符 。 


sed 是 处 理 简 单字 符 申 赫 换 (substitution) 的 主要 工具 ,在 我 们 的 经 验 里 , 大 部 分 的 Shell 
脚本 在 使 用 sea 时 几乎 都 是 用 来 作 替 换 的 操作 , 我 们 特意 在 这 里 不 介绍 sed 所 能 提供 的 
其 他 任务 ,是 因为 已 经 有 《sed 女 awk》 这 本 书 (已 列 于 参考 书目 9 它 会 介绍 更 多 相 
关 信息 。 


eo 
匹配 以 及 匹配 扩展 到 多 长 。 在 使 用 sed、awk 或 其 他 交互 式 文本 编辑 程序 时 ,这 个 法 则 
相当 重要 。 除 此 之 外 , 一 行 与 一 个 字符 串 之 间 的 差异 也 是 核心 观念 。 在 某 些 程序 语言 里 ， 
单个 字符 串 可 能 包含 数 行 ， 那 种 情况 下 , ^ 与 $ 指 的 分 别 是 字符 串 的 开头 与 结尾 。 


很 多 时 候 , 在 操作 上 可 以 将 文本 文件 里 的 每 一 行 视 为 一 条 单个 记录 ，, 而 在 行内 的 数据 则 
包括 字段 。 字 段 可 以 被 空白 或 是 特殊 定 界 符 分 隔 , 且 有 许多 不 同 的 UNIX 工具 可 处 理 这 
两 种 数据 。 a join 由 二 用 天 后 全 忆 于 中 下 机 
共同 键 值 的 字段 的 文件。 … 


awk 多 半 用 于 简单 的 “ 单 命令 行程 序 ” ， 当 你 想 要 只 显示 选 定 的 字段 ， 或 是 重新 安排 和 
内 的 字段 顺序 时 ,就 是 awk 派 上 用 场 的 时 候 了 。 由 于 它 是 编程 语言 ， 即使 是 在 简短 的 和 
序 里 ， 它 也 能 发 挥 其 强大 的 功能 、 灵活 性 与 控制 能 力 。 
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有 些 在 文本 文件 上 的 操作 , 之 所 以 能 成 为 广泛 应 用 的 标准 工具 , 是 因为 这 些 工作 早 在 贝 
尔 实 验 室 里 使 用 UNIX 时 就 开发 了 。 在 本 章 中 ， 我 们 就 是 要 来 看 看 这 些 重要 工具 。 


4.1 ”排序 文本 


含有 独立 数据 记录 的 文本 文件 ， 通常 都 可 以 全 来 排序 。 一 个 可 预期 的 记录 次 序 ， 会 让 用 
户 的 生活 更 便利 : 书 的 索引 、 字 典 、 目 录 以 及 电话 敌 ， 如 果 没 有 次 序 依据 就 毫 无 价值 。 
排序 后 的 记录 更 易于 程序 化 ， 也 更 有 效率 ， 这 部 分 在 第 5 章 将 有 进一步 的 说 明 。 


就 像 awk、cut 与 join 一 样 ;， sort 将 输入 看 作 具 有 多 条 记录 的 数据 流 ， 而 记录 是 由 可 
变 宽度 的 字段 组 成 , 记录 是 以 换行 字符 作为 定 界 符 , 字段 的 定 界 符 则 是 空白 字符 或 是 用 
户 指定 的 单个 字符 。 


4.1.1 行 的 排序 


以 最 简单 的 情况 来 说 , 未 提供 命令 行 选项 时 ， 整个 记录 都 会 根据 当前 locale 所 定义 的 次 
序 排序 。 在 传统 的 C locale 中 $: 也 就 是 ASCIT 顺 序 ; 但 是 你 可 以 像 我 们 先前 介绍 过 的 2.8 
节 那 样 ， 自行 设置 另 一 种 1ocale。 


在 ISO 8859-1 小 型 双语 字典 里 , 有 4 个 法 文 单词 ， 人 


$ cat 和 显示 迷你 字典 

céte coast a i 
cote. . dimension :< /1 .i 和 
coté dimensioned 

COteé side 
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sort 
语法 
Es sort [ options ] [ file(s) ] 
-用途 
将 输入 行 按 照 键 值 字段 与 数据 类 型 选项 以 及 locale 排序 。 
主要 选项 
= 区 
忽略 开头 的 空白 。 


检查 输入 是 否 已 正确 地 排序 。 如 输入 未 经 排序 , 但 退出 码 (exit code) 为 
非 堆 值 ， 则 不 会 有 任何 输出 。 


字典 顺序 ; 仅 文 字数 字 与 空白 才 有 意义 。 


一 般 数 值 : 以 浮 点 数字 类 型 比较 字段 。 这 个 选项 的 运作 有 点 类 似 -n， 差 
别 仅 在 于 这 个 选项 的 数字 可 能 有 小 数 点 及 指数 ( 例 : 6.022e+23)。 仅 
GNU 版 本 提供 此 功能 。 


将 混用 的 字母 都 看 作 相 同 大 小 写 ， 也 就 是 以 不 管 字母 大 小 写 的 方式 排序 。 


Pg 

定义 排序 键 值 字段 。 详 见 4.1.2 节 。 

将 已 排序 的 输入 文件 ， 合 并 为 一 个 排序 后 的 输出 数据 流 。 
以 整数 类 型 比较 字段 。 

outfile : 


将 输出 写 到 指定 的 文件 , 而 非 标准 输出 。 如 果 该 文件 为 输入 文件 之 一 , 则 
sort 在 进行 排序 与 写 到 输出 文件 之 前 ,会 先 将 它 复 制 到 一 个 临时 的 文件 。 


倒置 排序 的 顺序 为 由 大 至 小 (descending)， 而 非 默认 的 由 小 至 大 


(ascending ) 。 
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sort ( 续 ) 
-七 char 


使 用 单个 字符 char 作 为 默认 的 字段 分 隔 字 符 ， 取 代 默 认 的 空白 字符 。 


只 有 唯一 的 记录 : 丢弃 所 有 具 相 同 键 值 的 记录 ,只 留 其 中 的 第 一 条 。 只 有 

键 值 字段 是 重要 的 ， 也 就 是 说 : 被 丢 译 的 记录 其 他 部 分 可 能 是 不 同 值 。 

和 为 模式 | | 
Sort 会 读 取 指定 的 文件 ， 如果 未 给 定 文件 , 则 读 取 标准 输入 , 再 将 排序 好 的 
数据 写 至 标准 输出 。 | 














要 了 解 排序 的 过 程 , 你 可 以 使 用 八进制 的 打印 工具 : oaQ, 用 ASCIL 和 八进制 码 来 显示 法 
文 单词 : : 
$ cut -~f1 french-english | od -a -b 以 八进制 字 节 显示 法 文 单词 
0000000 C 本 t e nl 区 O e nl 忆 O 人 i nl C 
143 364 164 145 012 143 157 164 145 012 143 157 164 351 012 143 
0000020 上 t i nl | 


364 '164 351 012 
0000024 


显然 , 因为 加 了 ASCII 选 项 -a, od 脚本 去 掉 了 字符 前 面 的 位 , 因此 重音 字母 已 被 切除 ， 
不 过 我 们 还 是 可 以 看 到 它们 的 八进制 值 : & 为 3518 而 6 为 3648。 

”在 .GNU/Linux 系统 下 ， 可 以 用 如 下 方式 来 确认 字符 值 

$ man iso. 8859_1 查看 ISO 8859-1 的 手册 页 


Oct Dec Hex Char Description 


351 233 E9 é LATIN SMALL LETTER E WITH ACUTE 
364 244 F4 6 LATIN SMALL LETTER O WITH CIRCUMFLEX 
首先 ， 以 严格 的 字 节 顺序 排序 文件 : 、 
$ LC ALL=C gort french-english 以 传统 ASCII 码 顺 序 排序 
cote dimension 
coté dimensioned 
céte coast 
ceté side 


你 应 该 会 发 现 ， 正 如 其 数值 的 情况 : e (1458) 排 在 & (3518) 之 前 ; 而 o (1578) 排 在 
6 (3648) 之 前 。 
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超 








现在 我 们 以 Canadian-French 的 文本 顺序 排序 


$ LC_ALL=fr CA.i8088591 sort french-english 以 Canadian-French 的 locale 排 序 
cOte coast 


cote Gimension . 
coté dimensioned 
Cete siae 


输出 的 | 顺序 完全 不 同 于 按照 原始 字 节 值 所 做 的 传统 排序 。 


排序 的 惯例 ， 完 全 视 语言 、 国家 以 及 文化 而 定 ， 目 这 样 的 规则 有 时 会 非常 复杂 。 即 便 是 
英文 这 种 看 起 来 与 重音 不 相关 的 语言 , 都 有 复杂 的 排序 规则 。 可 以 看 看 电话 短 里 ， 那些 
大 小 写 、 数 字 、 空 间 、 标 点 符号 ， 还 有 姓名 变化 ， 例 如 MecKay 与 Mackay 的 处 理 方式 。 


4.1.2 以 字段 排序 


如 果 要 进一步 控制 排序 操作 , 可 以 用 - dd 并 且 用 -t 选 项 来 选择 字段 
定 界 符 。 


如 未 指定 -+ ， 则 表示 字段 以 空白 分 隔 且 记录 内 开头 与 结尾 的 空白 都 将 忽略 ， 如 指定 -t 
选项 , 则 被 指定 的 字符 会 分 隔 字 段 , 且 空 白 是 有 意义 的 。 因此 一 个 包括 “空白 -X- 空白” 
三 个 字符 的 记录 ， 如果 没 有 指定 -t 则 只 有 一 个 字段 ,如 果 使 用 -t' '， 则 为 三 个 字段 
(第 一 个 与 第 三 个 字段 是 空 的 )。 


-k 选 项 的 后 面 接着 的 是 一 个 字段 编号 , 或 者 是 一 对 数字 , 有 时 在 -kx 之 后 可 用 空白 分 隔 。 
每 个 编号 后 面 都 可 以 接 一 个 点 号 的 字符 位 置 ,及 /或 修饰 符 (modifier) 字母 之 一 ， 如 表 
4-1 所 示 。 


表 4-1: 排序 键 值 字段 的 类 型 


字母 说 明 

b 忽略 开头 的 空白 

Q 字典 顺序 

不 区 分 字母 的 大 小 写 

g 以 一 般 的 符 点 数字 进行 比较 ， 只 适用 于 GNU 版 本 … .… 
i 忽略 无 法 打印 的 字符 

n 以 (整数 ) 数字 比较 

r 倒置 排序 的 顺序 








字段 以 及 字段 里 的 字符 是 由 1 开始。 
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如 果 仅 指定 一 个 字段 编号 , 则 排序 键 值 会 自 该 字段 的 起 始 处 开始 , 一 直 继 续 到 记录 的 结 
尾 (而 非 字 段 的 结尾 ) 。 


如 果 给 的 是 一 对 用 去 点 隔 开 的 字段 数字 ， 则 排序 键 值 将 由 第 一 个 字段 值 的 起 始 处 开始 ， 
结束 于 第 二 个 字段 值 的 结尾 。 


使 用 点 号 字符 位 置 ， 则 比较 的 开始 (一 对 数字 的 第 一 个 ) 或 结束 (一 对 数字 的 第 二 个 ) 
在 该 字符 位 置 处 : -k2.4,5.6 指 的 是 从 第 二 个 字段 的 第 四 个 字符 开始 比较 , 一 直 比 到 第 
五 个 字段 的 第 六 个 字符 。 


如 果 一 个 排序 键 值 的 起 始 正好 落 在 记录 的 结尾 处 之 后 , 则 排序 键 值 为 空 , 且 空 的 排序 键 
值 在 排序 时 将 优先 于 所 有 非 空 的 键 值 。 


当 出 现 多 个 -k 选 项 时 , 会 先 从 第 一 个 键 值 字段 开始 排序 , 找 出 匹配 该 键 值 的 记录 后 , 再 
进行 第 二 个 键 值 字段 的 排序 ， 以 此 类 推 。 


注意 : -k 选 项 在 我 们 测试 的 所 有 系统 上 都 可 用 , 但 sort 也 认得 过 时 的 旧式 字段 规格 , 在 该 定义 
上 ， 字段 与 字符 位 置 是 从 0 开始 编号 。 键 值 从 字段 n 中 的 字符 m 开 始 ,定义 为 : +n.m， 以 
及 键 值 以 -n.m 结 束 。 举 例 来 说 ，sort +2.1 -3.2， 等同 于 sort -k3.2,4.3。 如 省 略 
.字符 位 置 ， 则 默认 为 0。 因 此 ，+4.0nr 与 +4nr 表 示 相 同 的 意义 ; 一 个 数值 型 的 键 值 ， 从 

第 5 个 字段 起 始 处 开始 ， 但 反 向 (由 大 至 小 ) 排序 。 


我 们 可 以 在 password 范例 文件 上 试 试 这 些 选项 , 以 冒号 隔 开 的 第 一 个 字段 : 用 户 名 称 ， 
进行 排序 : 


$ sort -t: -kl,1 /etc/passwd 以 用 户 名 称 排序 
bin:x:1:1:bin:/bin:/sbin/nologin “ 

chico:x:12501:1000:Chico Marx:/home/chico:/bin/bash 
daemon:x:2:2:daemon:/sbin:/sbin/nologin 

groucho:x:12503:2000 :Groucho Marx: /Home/groucho: /bin/sh 
gummo:x:12504:3000:Gummo Marx:/home/gummo:/usr/local/bin/ksh93 
harpo:x:12502:1000:Harpo Marx:/home/harpo:/bin/ksh 
root:x:0:0:root:/root:/bin/bash 

Zeppo:x:12505:1000:Zeppo Marx:/home/zeppo:/bin/zsh 


如 果 要 再 进一步 控制 排序 后 的 结果 ， 可 在 字段 选择 器 (field selector) 内 ， 加 入 一 个 修 
饰 符 字母 ， 定 义 字 段 里 的 数据 类 型 及 排序 顺序 。 这 里 显示 按照 反 向 顺序 的 UID 来 排序 
password 文件 的 结果 : | : 
$ gort -t: -k3nr /etc/passwd 反 向 UID 的 排序 
Zeppo:x:12505:1000:Zeppo Marx:/home/zeppo:/bin/zsh 


gummo:x:12504:3000:;Gummo Marx:/home/gummo:/usr/local/bin/ksh93 
groucho:x:12503:2000:Groucho Marx:/home/groucho: /bin/sh 
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泪 
下 
录 





harpo:x:12502:1000:;Harpo Marx: /home/harpo:/bin/ksh 
chico:x:12501:1000:Chico Marx:/home/chico: /bin/bash 
daemon:x:2:2:daemon:/sbin:/sbin/nologin 
bin:x:1:1:bin:/bin:/sbin/nologin 
root:x:0:0:root:;/root:/bin/bash 


更 精确 的 字段 规格 应 为 -k3nr, 3 (也 就 是 从 字段 3 起 始 处 开始 ,以 数值 类 型 反 向 排序 ， 
并 结束 于 字段 3 的 结尾 )， 或 是 -k3,3nr, 甚至 是 -K3，3 -n -rf 也 可 以 ， 由 于 sort 
会 在 遇 到 第 一 个 非 阿 拉 伯 数字 处 停止 收集 数据 ， 所 以 -k3nr 也 正确 。 


在 我 们 的 password 范例 文件 里 ， 有 三 个 用 户 拥有 共同 的 GID (字段 4)， 因 此 我 们 可 以 
先 以 GID 排序 ， 再 以 UID 排序 ， 如 下 所 示 : 


$ Sort -t: -kkn -k3n /etc/passwd 以 GID 与 UID 排 序 
root:x:0:0:root:/root:/bin/bash 
bin:x:1:1:bin:/bin:/sbin/nologin 
daemon:x:2:2:daemon:/sbin:/sbin/nologin 
chico:x:12501:1000:Chico Marx:/home/chico:/bin/bash 
harpo:x:12502:1000:Harpo Marx:/home/harpo:/bin/ksh 
Zeppo:x:12505:1000:Zeppo Marx:/home/zeppo:/bin/zsh 
groucho:x:12503:2000:Groucho Marx: /home/groucho: /bin/sh 
gummo:x:12504:3000:Gummo Marx: /home/gummo:/usr/local/bin/ksh93 


-u 选 项 的 好 用 是 在 于 : 它 可 以 要 求 sort 仅 输出 唯一 的 记录 , 而 “唯一 的 ”是 指 它们 的 
排序 键 值 字段 匹配 , 即使 在 记录 的 其 他 地 方 有 差异 也 无 所 谓 。 我 们 再 利用 password 文 件 
看 一 次 ， 发 现 : 

$ gort -t: -kdn -u /etc/passwd 以 叭 一 的 GID 排序 

root:x:0:0:root:/root:/bin/bash 

bin:x:1:1:bin:/bin:/sbin/nologin 

daemon:x:2:2:daemon:/sbin:/sbin/nologin 

chico:x:12501:1000:Chico Marx:/home/chico:/bin/bash 


groucho:x:12503:2000:Groucho Marx:/home/groucho:/bin/sh 
gummo:x:12504:3000:Gummo Marx:/home/gummo:/usr/local/bin/ksh93 


注意 , 输出 结果 变 短 了 : 有 三 个 用 户 都 为 组 1000， 但 只 有 一 个 输出 。 我 们 会 在 4.2 节 中 
说 明 其 他 选 出 唯一 记录 的 方式 。 


4.1.3 ”文本 块 排序 : 

有 时 ,你 会 需要 将 多 行 记录 组 合 而 成 的 数据 排序 。 地 址 清单 就 是 一 个 很 好 的 例子 , 为 了 
方便 阅读 ,地址 记录 经 常会 切断 ， 以 一 个 或 数 个 空 行 将 彼此 隔 开 。 像 这 种 数据 ,没有 一 
定 的 排序 键 值 位 置 可 供 -k 选项 使 用 ， 所 以 你 得 自救 ， 提 供 一 些 额 外 标记 (markup) 给 
这 些 数 据 。 这 里 是 一 个 简单 范例 : 


$ cat my-friends 显示 地 址 数据 文件 
# SORTKEY: Schlof, Hans Jirgen 
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Hans Jurgen Schlofs 
Unter den Linden 78 
D-10117 Berlin 
Germany 


# SORTKEY: Jones, Adrian 
Adrian Jones 

371 Montgomery Park Road 
Henley-on-Thames RG9 4AJ 
UK 


# SORTKEY: Brown, Kim 
Kim Brown 

1841 S Main Street 
Westchester, NY 10502 
USA 


这 里 的 排序 小 技巧 ,就 是 利用 awk 处 理 较 一 般 性 的 记录 分 隔 字 符 的 能 力 , 识别 段落 间隔 ， 
在 每 个 地 址 内 暂时 使 用 一 个 未 使 用 过 的 字符 (例如 使 用 一 个 无 法 打印 的 控制 字符 )， 取 
代 分 行 ， 以 及 用 换行 字符 取代 段落 间隔 。sort 看 到 的 行 就 会 变 成 这 样 : 

# SORTKEY: SchloB, Hans Jurgen^ZHans Jirgen SchioB^zUnter den Linden 78^2... 


# SORTKEY: Jones, Adrian^ZAdrian Jones^2371 Montgomery Park Road”2... 
# SORTKEY: Brown, Kim^ZKim Brown^21841 S Main Street^2Z... 


在 这 里 ,“^z 是 一 个 Ctrl-Z 字 符 。 第 一 个 过 滤 步 又 是 通过 sort 排序 后 恢复 换行 与 段落 的 


分 隔 符号 ， 且 排序 键 值 行 是 容易 删除 的 ， 如 有 需要 ， 可 使 用 grep 轻松 地 删除 它们 。 整 
个 管道 看 起 来 就 像 这 样 : 


cat my-friends 上 在 地 址 数据 文件 里 的 管道 
awk -v RS="" ’'{ gsub("\n", "*^2*); print }' | 转换 地 址 为 单个 行 
sort -f |] 排序 地 址 数据 ， 忽 略 大 小 写 
awk -v ORS=" nn" '{ gsub("^2",， "\n"); print }]， |]. 恢 复 行 结构 
grep -V i# SORTKEY， 删除 标记 行 


函数 gsup ( ) 功能 为 全 局 性 替换 (global substitution)， 类 似 seQ 下 的 s/x/y/g 架构 。 
RS 变量 是 输入 数据 的 记录 分 隔 器 (Record Separator) 。 通 常 输入 数据 是 以 换行 字符 隔 
开 ， 使 每 一 行 成 为 单个 的 记录 。 "RS=""” 是 一 个 特殊 用 法 ， 指 的 是 记录 以 空 行 的 方式 
隔 开 ; 例如 每 个 块 或 文本 段落 自 成 一 个 记录 。 这 就 是 我 们 的 例子 里 输入 的 数据 形式 。 最 
后 ，ORS 指 的 是 输出 记录 分 隔 器 (Output Record Separator)， 以 print 显示 的 每 条 输 
出 记录 会 以 其 值 作为 终止 。 一 般 来 说 默认 值 为 单个 换行 字符 ， 在 此 设置 它 为 "\n\n"， 
是 为 了 保持 用 空白 行 分 隔 记 录 的 输入 格式 (更 多 相关 细节 ， 请 见 第 9 章 )。 


这 个 管道 应 用 在 上 述 地 址 数据 文件 上 的 输出 为 


Kim Brown 
1841 S Main Street 
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Westchester, NY 10502 
USA 


Adrian Jones 

371 Montgomery Park Road 
Henley-on-Thames RG9 4AJ 
UK 


Hans Jurgen Schlos® 
Unter den Linden 78 
D-10117 Berlin 
Germany 


这 种 方法 最 棒 的 地 方 就 在 于 我 们 可 以 很 轻松 地 把 额外 的 键 值 放 入 到 每 条 地 址 数据 里 ,这 
么 一 来 不 论 是 在 排序 或 选择 时 都 可 以 使 用 ， 例 如 一 个 额外 的 标记 行 ， 形 式 如 下 : 


## COUNTRY: UK 


在 每 一 个 地 址 中 ， 再 将 grep 搭配 管道 操作 : grep “'# COUNTRY: UK' 置 于 sort 前 ， 
就 可 以 取出 只 有 UK 的 地 址 数据 做 进一步 处 理 了 。 


当然 ， 你 也 可 以 更 完善 些 ， 以 更 细节 的 XML 标记 作为 地 址 数据 各 部 分 类 型 的 识别 ; 


<address> 
<personalname>Hans Jiirgen</personalname> 
<familyname>schloB</familyname><br/> 
<streetname>Unter den Linden<streetname> 
<streetnumber>78</streetnumber><br/> 
<postalcode>D-10117</postalcode> 
<city>Berlin</city><br/> 

~ <country>Germany</country> 

</address> 


有 了 这 种 较为 华丽 的 数据 处 理 过 滤 程 序 , 你 可 以 先 以 国家 与 邮政 编码 排序 好 邮件 , 让 邮 
局 在 处 理 时 更 为 顺畅 ， 不 过 我 们 前 面 提 到 的 小 标记 与 简单 管道 处 理 方式 ， 多 半 就 足以 完 
成 此 工作 了 。 


4.1.4 ”sort 的 效率 


排序 数据 的 操作 ,很 明显 地 就 是 比较 所 有 成 对 的 项 目 , 看 哪个 在 先 哪个 在 后 , 因此 得 到 
为 人 所 熟知 的 算法 ， 如 冒 泡 排序 (bubble sort) 与 插入 排序 (insertion sort) 。 这 些 讲求 
快速 排序 (quick-and-dirty) 的 算法 ， 在 处 理 少量 数据 时 很 好 用 ， 不 过 当面 临 大 量 的 数 
据 需要 处 理 时 速度 就 不 够 快 了 ,因为 如 果 需 要 排序 上 条 记录 ,它们 会 让 数据 增加 到 几乎 
是 mn? (平方 ) 那么 大 。 这 和 我 们 在 本 书 里 所 讨论 的 大 部 分 过 滤器 完全 不 同 : 后 者 是 读 取 
一 条 记录 ， 处 理 它 并 输出 它 ， 所 以 它们 的 执行 时 间 完 全 与 记录 的 数量 成 比例 。 
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幸运 的 是 ,计算 领域 中 的 很 多 人 在 关心 排序 的 问题 ， 有 一 些 不 错 的 排序 算法 ， 例 如 从 复 
杂 度 来 看 ， 有 na22 次 方 (Shellsort)、n log n (heapsort、mergesort 及 quicksort),. 从 针 
对 受 限制 的 数据 种 类 来 看 ， 有 nn 的 分 布 排序 (distribution sort) 。UNIX 的 sort 命令 实 
现 , 已 有 许多 人 在 进行 研究 并 优化 调整 : 你 A 依 它 的 工作 效率 ， 它 一 定 可 以 比 你 自 
己 做 得 好 ， 而 且 几 乎 不 必 学 习 一 堆 的 排序 算法 。 


4.1.5 sort 的 稳定 性 


在 排序 算法 里 有 个 重要 的 问题 : 是 否 稳定 (stable) ? 这 个 问题 指 的 是 ， 相同 的 记录 输入 
顺序 是 否 在 输出 时 也 可 保持 原状 ?” 当 你 以 多 键 值 为 记录 进行 排序 ， 或 是 以 管道 处 理 时 ， 
排序 稳定 性 就 非常 重要 了 。POSIX 不 需要 这 个 所 谓 的 sort 的 稳定 性 , 绝 大 多 数 的 实现 
也 不 需要 ， 来 看 看 下 面 这 个 范例 ， 

$ gort -t_ -kl,1 ~k2,2 << EOF 以 前 面 两 个 字段 为 键 值 ， 排 序 这 四 行 

> one_two 

> one_ two_ three 

> one_two_four 

> one_two_five 

> EOF 

.One_two 

one_two_five 

one_two_four 

one_two_three 


每 条 记录 内 的 排序 字段 都 相同 ， 但 输出 却 与 输入 不 一 致 ， 所 以 我 们 说 sort 并 不 稳定 。 
幸好 : GNU 实现 了 coreutils 包 ( 注 1) 弥补 不 足 ， 它 可 以 通过 --stable 选项 补救 此 
问题 : 设置 此 选项 ， 上 例 的 输出 便 可 与 输入 一 致 了 。 


4.1.6 ”sort 小 结 


sort 绝对 排 得 进 UNIX 重要 命令 前 十 名 : 把 它 学 好 一 定 没 错 ， 因为 你 会 经 常用 到 。 本 
章 一 开始 , 就 详细 介绍 过 sort 了 , 不 过 你 可 以 参考 计算 机 里 的 sort(1) 手 册页 (manual 
page)， 来 了 解 更 多 用 法 。sort 当然 经 过 POSIX 的 标准 化 ， 所 以 几乎 在 所 有 机 器 上 都 
能 使 用 。 


4.2 ”删除 重复 


有 了 时， 将 数据 流 里 连续 重复 的 记录 删除 是 有 必要 的 。 我 们 在 4.1.2 节 里 介绍 加 过 sort -u 
的 用 法 ， 不 过 我 们 也 知道 ， 它 的 消除 操作 是 依据 匹配 的 键 值 ， 而 非 匹 配 的 记录 。unig 





注 1: 可 到 ftp:/fip.gnu.org/gnu/coreutils/ 下载 。 
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命令 提供 另 一 种 过 滤 数 据 的 方式 : 它 常用 于 管道 中 ， Gl 
重复 记录 : 


Sort: 2300 J onig Wr 
unig 有 3 个 好 用 选项 : -c 可 在 每 个 输出 行 之 前 加 上 该 行 重复 的 次 数 ， 这 部 分 我 们 在 第 


5 章 例 5-5 的 单词 出 现 频 率 过 滤器 里 会 用 到 ，-d 选项 则 用 于 仅 显示 重复 的 行 ; 而 -u 仅 
显示 未 重复 的 行 。 下 面 是 一 些 范例 说 明 ， 


$ cat latin-numbers | 显示 测试 文件 


上 reSs、 
unus 
duo 
tres 
duo 
tres 
$ gort latin-numbers | uniqg 显示 唯一 的 、 排 序 后 的 记录 ， 重 复 则 仅 取 唯一 行 
duo 
tres 
unus 
$ gort latin-numbers | uniq -c 计数 唯一 的 、 排 序 后 的 记录 
2 duo 
3 tres 
1 _ unus 
$ gort latin-numbers | uniqg -da 仅 显 示 重 复 的 记录 
duo ' 
tres 
$ gort latin-numbers | unig -u 仅 显 示 未 重复 的 记录 


unus 


unig 有 时 会 拿 来 与 Giff 工 具 搭 配 应 用 , 在 找 出 两 个 相似 数据 流 的 异同 的 时 候 很 方便 ， 
例如 字典 单词 列表 、 在 映射 目录 树 内 的 路 径 、 电 话 夭 等 等 。 在 大 部 分 的 实现 中 有 很 多 其 
他 的 选项 可 供 使 用 ， 你 可 以 在 uniq(1) 手 册页 里 找到 相关 描述 ， 不 过 它们 很 少 使 用 。 而 
unigq 就 像 sort 一 样 ， 已 被 POSIX 标准化， 所 以 在 哪儿 都 能 使 用 。 


4.3 “重新 格式 化 段落 


大 部 分 功能 强大 的 文本 编辑 器 都 提供 重新 格式 化 段落 的 命令 ; 供用 户 切 分 段落 , 使 文本 
行 数 不 要 超出 我 们 看 得 到 的 屏幕 范围 我 们 写 这 本 书 时 就 用 了 许多 类 似 命令 。 有 时 你 在 
SheH 脚 本 内 处 理 数据 流 时 需要 完成 重新 格式 化 ;或 者 在 一 个 缺乏 重新 格式 化 命令 但 提供 
了 Shel 转 义 的 编辑 器 内 完成 它 。 在 不 提供 此 功能 的 情况 下 ， 你 可 以 使 用 fmt 命令 。 虽 
然 POSIX 未 提 及 fmt, 不 过 你 还 是 可 以 在 许多 现行 的 UNIX 系统 下 找到 它 ， 如 果 你 的 旧 
系统 里 没有 fmt ， 只 要 安装 GNU 的 coreutils 包 即 可 。 | 
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虽然 一 些 fmt 的 实现 有 较 多 的 选项 可 用 , 但 其 实 我 们 发 现 只 有 两 种 较 常 用 到 ; -s 仅 切 
割 较 长 的 行 ,但 不 会 将 短 行 结合 成 较 长 的 行 , 而 -wn 则 设置 输出 行 宽 度 为 4 个 字符 ( 默 
认 通 常 约 75 个 左右 ) 。 这 里 的 几 个 例子 是 一 字 一 行 的 拼音 字典 ， 


$ sed -n -e 9991,10010p /usr/dict/words | fmt 重新 格式 化 20 个 字典 单词 
Graff graft graham grail grain grainy grammar grammarian grammatic 
granary grand grandchild grandchildren granddaughter grandeur grandfather 
grandiloquent grandiose grandma grandmother 


$ sed -n -e 9995,10004p /usr/dict/words | fmt -w 30 重新 将 10 个 单词 格式 化 为 短 的 行 
grain grainy grammar 

grammarian grammatic 

granary grand grandchild 

grandchildren granddaughter 


如 果 你 的 系统 里 没有 /usr/dict/wordsr， 那 么 有 可 能 文件 是 在 /usr/share/dict/ 
words 或 /usr/share/lib/dict/words。 


仅 作 切割 的 选项 : -s，, 在 你 想 将 长 的 行 绕 回 , 短 的 行 保持 不 动 时 很 好 用 , 这 么 做 也 能 使 
结果 与 原始 版 本 间 的 差异 达到 最 小 : 


fmt -8 -w 10 << END_OF_DATA 仅 重新 格式 化 长 的 行 
one two three four five 
Six 

Seven 

eight 

> END_OF DATA 

one two 

three 

four five 

six 

seven 

eight 


VVvVvVVv 


警告 ， 你 可 能 觉得 ， 使 用 fmt -w 0 就 能 将 输入 数据 流 切 为 一 字 一 行 ， 或 者 你 想 用 较 长 的 宽度 ， 
将 所 有 的 字符 串 在 一 起 ， 并 删除 分 行 。 和 遗憾 的 是 ，fmt 的 每 个 版 本 ， 都 有 不 同 的 行为 : 
。 ”旧版 的 fmt 不 提供 -w 选 项 ， 它 们 使 用 -n 指定 宽度 为 n 个 字符 宽 。 
。 ”所 有 版 本 都 禁止 将 宽度 设 为 零 ， 不 过 接受 -w 1 或 -1 的 用 法 。 
。 ”所 有 版 本 都 保留 开头 的 空白 。 
。 ”有 些 版 本 会 保留 类 似 邮 件 标 题 的 行 。 
。 ”有 些 版 本 会 保留 开头 为 一 个 点 号 的 行 (troff 排 字 命 令 )。 


。 ”宽度 限制 各 有 不 同 。 我 们 发 现 的 就 有 好 几 种 : Solaris 的 上 限 是 1021、HP/UX 11 的 是 
2048、AIX 与 IRIX 的 是 4093、OSF/1 4.0 的 是 8189、-OSF/1 5.1 的 是 12285， 还 有 


FreeBSD、GNU/Linux 与 Mac OS (最 大 的 32 位 带 符号 的 整数 ) 的 是 2147483647。 


www.TopSage.com 


92 第 4 章 











。 NetBSD 与 OpenBSD 的 fmt 版 本 有 不 同 的 命令 行 语法 ， 看 起 来 应 是 分 配 一 个 缓冲 区 
以 保留 输出 行 ， 因 为 它们 会 针对 大 的 宽度 值 给 出 out of memory 这 样 的 信息 。 


。 IRIX 的 fmt 位 于 /usr/sbin， 此 目录 不 太 可 能 出 现在 你 的 查找 路 径 里 。 
。 HP/UX 在 11.0 之 前 的 版 本 没有 fmt。 


由 于 这 些 fmt 版 本 各 有 不 同 的 特性 , 使 得 它 很 难 用 于 对 可 移植 性 要 求 很 高 的 脚本 中 或 是 复 
杂 的 重新 格式 化 工作 中 。 








.3 i | aa 和 | [mn | 六 | 
4.4 ”计算 行 数 、 字 数 以 及 字符 数 
我 们 已 使 用 过 字数 计算 工具 wc 好 几 次 了 。 它 可 能 是 UNIX 工具 集 里 最 古老 也 最 简单 的 
工具 程序 ,同时 POSIX 也 已 将 它 标 准 化 。wc 的 默认 输出 是 一 行 报 告 ， 包 括 行 数 、 字 数 
以 及 字 节 数 : 


$ echo This ig a test of the emergency broadcagt gystem | wc 计数 报告 
9 49 So | 
要 求 仅 输出 部 分 结果 时 ， 可 使 用 的 选项 有 : -c ( 字 节 数 )、-1 ( 行 数 ) 以 及 -w (字数 ): 
$ echo Testing one two three | we -c 计算 字 节 数 
22 
$ echo Testing one two three | wc -1 计算 行 数 
1 
$ echo Testing one two three | wc -vw 计算 字数 
4 


-Cc 选项 原本 是 表示 字符 数 (character count), 但 因为 有 多 字 节 字符 集 的 编码 存在 一 一 
像 是 UTF-8, 因此 在 当前 系统 上 , 字 节 数 已 不 再 等 同 于 字符 数 了 ,也 因此 ,， POSIX 出 现 
了 -m 选 项 ， 用 以 计算 多 字 节 字符 ,对 8 位 字符 数据 而 言 ， 它 是 等 同 于 -c 的 。 
虽然 wc 最 常 处 理 的 是 来 自 于 管道 的 输入 数据 ， 但 它 也 接受 命令 行 的 文件 参数 ， 可 以 生 
成 一 行 一 个 结果 ， 再 附 上 报告 : 
ere ato pasa etd 计算 两 个 文件 里 的 数据 
26 68 1631 /etc/passwd 


10376 10376 160082 /etc/group 
10402 10444 161713 total 


wc 的 现代 版 本 会 随 10cale 而 有 不 同 结果 : 将 环境 变量 LC_CTYPE 设 为 想 用 的 locale, 会 
影响 wc 把 字 节 序列 解释 为 字符 或 单词 (word) 分 隔 器 。 


第 5 章 我 们 会 说 明 另 一 个 用 来 报告 每 个 单词 发 生 频 率 的 相关 工具 : wf。 
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4.5 打印 


和 计算 机 比 起 来 , 打印 机 是 比较 慢 的 设备 , 因为 它们 一 般 都 是 共享 的 , 通常 不 希望 用 户 
直接 传递 工作 给 它们 ， 因 此 ， 大 部 分 的 操作 系统 都 提供 命令 ， 让 用 户 传送 需求 到 打印 
daemon 中 ( 注 2), daemon 将 打印 的 工作 放 进 队列 ,并 处 理 打 印 机 与 队列 管理 。 打印 命 
令 的 处 理 可 以 很 快 ， 因 为 打印 是 在 所 需 的 资源 呈现 可 用 状态 时 ， 才 能 在 后 台中 被 执行 。 


UNIX 里 支持 的 打印 功能 包括 了 两 类 不 同 的 命令 ， 但 拥有 相同 的 功能 ， 见 表 4-2。 商 用 
UNIX 系 统 与 GNU/Linux 通 常 两 种 都 支持 ， 不 过 BSD 系 统 就 仅 支持 Berkeley 风 格 。 POSIX 
则 只 定义 了 1p 命令 


表 4:2: 打印 的 命令 


Berkeley System V :…! :用 阁下 于 

1pr 1p 传送 文件 到 打印 队列 
lprm cancel 从 打印 队列 中 删除 文件 
lpq : lpstat.、 . 报告 队列 状态 





以 下 为 上 述 命令 的 例子 ， 首 先是 Berkeley 风格 : 


$ lpr -Plcb1i02 sample.ps 将 Postscript 文件 传 给 打印 队列 lcb102 


$ 1pg -Plcb102 : 要 求 查看 打印 队列 状态 
1cb102 is ready and printing 
Rank Owner .Job File{s) Total Size 


active, jones 81352 sample.ps 122888346 bytes 


$ lprm -Plcb102 81352 . , 停止 此 进程 ! 结束 这 个 庞大 的 作业 
然后 是 System V 风格 ， 如 下 ; 
$ 1p -d lcb102 sample.ps 传送 PostScript 文件 到 打印 队列 1cb102 


request id is lcbl02-81355. (1 .filels)) 


$ lpstat -t lcblo2 . 要 求 查看 打印 队列 状态 
printer 1cb102 now printing 1cpbl02- 81355 


$ _ cancel lcb102-81355 嗅 ! 不 要 打印 该 工作 ! 


lp 与 lpr Bs de ai 自 标 准 输入 的 数据 ， 而 不 是 来 自命 令 行 上 的 文件 ， 所 
以 它们 也 常用 在 管 结尾 。 : 


系统 管理 可 以 将 特定 单个 队列 设 为 系统 默认 值 , 所 以 当 默 认 值 是 可 接受 时 , 无 须 提供 队 





注 2: daemon ( 读 作 dee-mon) 是 一 个 长 期 处 于 执行 状态 的 进程 ,提供 诸如 账号 管理 、 文 件 访 
问 、 登 录 、 网 络 连接 、 打 印 与 时 刻 等 服务 。 | 
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列 名 称 。 每 个 用 户 都 能 设置 环境 变量 ; PRINTER (Berkeley) 或 LPDEST (System V)， 
选择 个 人 的 默认 打印 机 。 


打印 队列 名 称 是 由 各 站 点 指定 (site-specific) 的 ; 小 站 点 可 直接 称 为 printer, 并 将 
其 设 为 默认 值 。 大 站 点 则 可 挑选 反映 其 位 置 的 名 称 , 例如 建筑 物 缩写 以 及 房间 编号 ; 或 
者 是 识别 特定 打印 机 类 型 或 功能 ， 像 是 bw 指 的 是 黑白 打印 机 ， 而 color 则 为 比较 昂贵 
的 打印 机 。 


麻烦 的 是 ， 使 用 现代 网 络 化 的 智能 型 打印 机 的 时 候 ， lprm、 cancel、lpq 以 及 lpstat 
这 样 的 命令 已 经 不 像 以 前 那么 有 用 了 : 打印 工作 很 快 就 传 到 打印 机 ， 并 出 现在 打印 机 
daemon 上 , 显示 打印 好 了 , 然后 从 打印 队列 中 删除 一 一 即使 打印 机 仍然 将 它们 搁 在 内 
存 或 是 文件 系统 里 ， 这 时 ， 它 仍 能 同时 处 理 其 他 的 打印 工作 。 就 这 点 来 看 ， 唯 一 要 用 到 
的 资源 ， 就 是 利用 打印 机 的 控制 面板 ， 取消 不 想 要 的 工作 。 


4.5.1 打印 技术 的 演化 


从 UNIX 开 发 以 来 , 打印 机 的 技术 已 有 长 足 的 进展 与 改变 。 这 个 产业 一 开始 是 金属 字符 
手打 色 带 与 纸 的 大 型 图 文件 打印 机 与 电子 打字 机 ， 后 来 是 电子 式 、 点 矩阵 、 喷 墨 以 及 激 
光 打 印 机 ， 打 印字 符 越 来 越 细致 。 


微 处 理 器 的 进步 , 允许 在 打印 机 内 直接 实现 简易 命令 语言 ,例如 Hewlett-Packard Printer 
Command Language (PCL) 以 及 HP Graphics Language (HPGL)， 当 然 也 有 功能 更 齐 
全 的 程序 语言 ， 最 有 名 的 就 是 Adobe PostScript 了 。Adobe Portable Document Format 
(PDF) 是 PostScript 的 后 续 版 本 ， 它 更 简洁 , 但 不 能 编程 。 PDF 还 提供 额外 的 功能 , 例 
如 彩色 幻灯 片 、 数 码 签 名 、 文 件 访问 控制 、 加 密 、 高 级 数据 加 密 以 及 独立 页 面 (page 
independence)。 近 期 出 现 的 新 功能 是 , 使 用 高 性 能 打印 机 将 多 个 页 面 同时 印 成 一 页 , 以 
及 可 使 用 PDF 浏览 器 ， 迅 速 地 浏览 所 需 页 面 。 


最 新 一 代 的 设备 , 将 打印 、 影印 及 扫描 整合 到 一 个 系统 上 , 并 结合 了 磁盘 文件 系统 以 及 
网 络 访问 , 支持 多 页 面 描述 语言 与 图 形 文件 格式 , 甚至 还 出 现 了 以 GNU/Linux 作 为 嵌入 
式 操作 系统 的 设备 。 


遗憾 的 是 ，UNIX 打印 软件 的 改进 速度 并 没有 这 些 打印 技术 改良 得 快 , 而 且 在 利用 命令 
层级 访问 较 新 打印 机 功能 上 还 是 很 缺乏 。 有 两 个 著名 的 软件 项 目 试图 解决 这 样 的 窘境 : 
它们 是 Common UNIX Printing System (CUPS, 注 3) 和 1ptr next generation (LPRng， 
注 4)。 许多 大 型 UNIX 站 点 在 这 两 者 之 中 取 其 一 ; 这 两 种 软件 都 提供 熟悉 的 UNIX 打 印 
命令 , 但 带 有 更 多 的 选项 。 这 两 种 软件 也 都 充分 支持 PostScript 与 PDF 文 件 的 打印 : 必 


注 3; 见 http://1www.cups.org/ 及 本 书 参 考 书 目 中 所 列 的 书籍 。 


注 4: 见 htip://www.lprng.org/。 
www.TopSage.com 


文本 处 理工 具 95 








要 时 ， 它 们 会 利用 Aladdin 或 GNU ghostscript 解释 器 ， 帮 助 功能 不 足 的 打印 机 把 这 类 
文件 转换 为 其 他 的 格式 。CUPS 也 支持 各 类 图 形 图 像 文件 格式 的 打印 , 以 及 一 次 n 页 (将 
几 个 图 形 缩小 ， 打 印 在 同一 张 纸 上 ) 打印 的 功能 。 


4.5.2 ”其 他 打印 软件 


不 要 被 pr 的 名 字 欺 骗 了 ， 它 其 实 并 不 是 打印 文件 用 的 命令 ， 它 不 过 是 过 滤 数 据 为 打印 
做 准备 。 以 最 简单 的 情形 来 说 , pz 会 以 文件 的 修改 时 间作 为 页 面 标题 的 时 间或 ; 如 果 输 
入 是 自 管道 而 来 ， 则 使 用 当前 的 时 间 ， 接 上 文件 名 称 (如 果 输 入 的 数据 内 容 在 管道 中 ， 
则 为 空 的 ) 以 及 页 码 ， 以 每 页 固定 行 数 (66) 的 方式 打印 。 也 就 是 这 样 : 


pr file(s) | 1p 
会 显示 适当 的 列表 。 不 过 ， 自 从 20 世 纪 70 年 代 古 老 的 机 械 式 打 印 机 退役 之 后 ， 这 种 简 


化 的 方式 就 不 再 有 效 了 。 每 种 打印 机 默认 的 字体 大 小 与 行列 空间 都 不 同 , 而 且 平 常 使 用 
的 纸张 大 小 也 都 不 一 样 。 








pr 
pr [ options ] [filel(s) | 
用 途 
将 文本 文件 编 页 ， 供 打印 用 。 
主要 网 项 


-cn ! 
产生 n 栏 (column) 的 输出 。 此 选项 可 以 缩写 为 -了 替代 ( 例 : -4 意 同 于 
-c4)。 
-ff 
在 首页 之 后 的 每 一 页 标题 前 置 一 个 ASCII 分 页 字符 (formfeed character) 
标题 。 此 选项 在 FreeBSD、NetBSD 与 Mac OS 区 里 为 -F; 在 OpenBSD 
里 则 两 种 都 可 以 。POSIX 里 一 样 两 种 都 能 用 ， 只 是 意义 稍 有 不 同 。 
-h althar 
将 页 标题 (page header) 内 的 文件 名 称 ， 改 用 字符 串 althar 取 代 。 
产生 严 行 的 页 面 。 有 些 版 本 将 页 首 行 与 页 尾行 计算 在 内 ， 有 些 则 不 是 。 
-on 


输出 位 移 几 个 空白 。 
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梁 
心 
挤 











[| 5 


= 
不 显示 标题 。 


pr ( 续 ) 


-wn : 和 : a 
每 行 至 多 个 字符 。 以 单 栏 输出 而 言 ， 如 有 需要 会 将 较 长 的 行 切 分 绕 回 至 
另外 一 行 ; 否则 ， 在 多 栏 输出 的 情况 下 ， 会 蕉 去 长 的 行 以 符合 指定 。 
” 疮 为 模式 | i 
pr 会 读 取 指定 的 文件 ， 如 果 未 给 予 指定 文件 , 则 读 取 标准 输入 ,再 将 编 页 完 
成 的 数据 写 到 标准 输出 。 
登 公 
pz 的 各 个 版 本 ， 对 支持 选项 与 输出 格式 有 极 大 的 差异 ; 使 用 GNU coreutils 
版 本 可 让 用 户 在 所 有 系统 上 使 用 时 ， 都 能 得 到 一 致 的 行为 模式 。 











反而 比较 常用 的 是 : -1 选项 设置 输出 页 面 长 度 、-w 设 置 页 面 宽度 ，-o 设置 文本 位 移 。 
另外 还 有 -f 也 是 必 备 的 《有些 系统 是 -F) 一 一 用 来 在 首页 后 的 每 页 页 标题 加 入 ASCII 
分 页 控制 字符 , 这 是 为 了 保障 每 页 页 标题 都 起 始 于 新 的 一 页 。 所 以 实际 上 你 应 该 会 这 样 
用 ， 


pr -Et -160 -ol0 -w65 file(s) | ip 


如 果 你 稍 后 使 用 不 同 的 打印 机 ， 必 须 更 改 这 些 数值 型 参数 ， 这 点 让 pz 很 难 应 用 在 必须 
具备 可 移植 性 的 Shell 脚本 上 。 


pr 有 一 个 功能 可 通用 于 多 数 情况 下 : 以 -cn 选项 要 求 4 栏 输出 。 如 果 搭配 -t 选项 可 省 
略 页 标题 , 这 样 就 可 以 产生 适当 的 多 栏 列表 。 下面 这 个 例子 便 是 将 26 个 单词 格式 化 为 5 


$ ged -n -~e 19000,19025p /usr/dict/worda ] pr -c5 -t 


reproach repugnant request reredos resemblant 
reptile repulsion require rerouted : resemble 
reptilian. repulsive requisite rerouting resent 
republic | reputation requisition rescind resentful 
republican repute requited rescue reserpine 
repudiate 


如 果 栏 宽 太 小 ，pr 会 默默 截 去 超出 的 数据 ， 以 避免 该 行 过 长 。 我 们 可 以 试 试 看 将 上 例 
26 个 单词 格式 化 为 10 栏 〈 截 断 ) ， 如 下 所 示 ; 


$ sed -n -e 19000,19025p /usr/dict/words | pr -cl0 -tt 
reproa republ repugn reputa requir requit rerout rescue resemb resent 
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reptil republ repuls repute requis reredo rescin resemb resent reserp 
reptil repudi repuls reques requis rerout 


pr 有 很 多 选项 可 用 , 长久 以 来 , 在 各 种 UNIX 系统 上 ,它们 的 选项 的 使 用 、 输 出 格式 与 
每 页 可 打印 行 数 上 有 着 各 种 不 同 之 处 。 我 们 建议 使 用 GNU coreutils 包 的 版 本 ， 因 为 这 
么 一 来 到 哪儿 都 能 有 一 致 的 界面 , 可 以 用 的 选项 也 比 其 他 版 本 为 多 。 你 可 以 参考 pr(1) 的 
手册 页 了 解 更 多 的 细节 。 


虽然 有 些 PostScript 的 打印 机 接受 纯 文本 , 但 大 部 分 仍 是 不 接受 的 。 这 时 像 TEX 与 troff 
这 类 的 排版 系统 , 便 能 将 标记 文件 转 为 PostScript 或 是 PDF (或 两 者 都 可 ) 的 页 面 映像 。 
如 果 你 手 上 只 有 纯 文本 文件 ， 要 怎么 打印 呢 ? UNIX 的 打印 系统 会 调用 适当 的 过 滤 程 序 
执行 转换 , 不 过 这 么 一 来 ,你 就 不 能 控制 它 显示 出 来 的 样子 了 。 这 类 问题 的 解决 方法 就 
是 文本 到 PostScript 的 过 滤器 ,例如 a2ps ( 注 5)、lptops ( 注 6) 或 Sun Solaris 专属 的 
mp。 用 法 如 下 : 


a2ps file > file.ps 产生 文件 的 PostScript 列表 
a2ps file | lp 打印 文件 的 PostScript 列表 
lptops file > file.ps 产生 文件 的 PostScript 列表 
lptops file | 1Pp 打印 文件 的 PostScript 列表 
mp file > file.ps 产生 文件 的 PostScript 列表 
mp file | lp 打印 文件 的 PostScript 列表 


这 三 种 方式 都 提供 命令 行 选项 ,以 选择 字体 、 指 定 字体 大 小 、 提 供 或 取消 页 首 , 以 及 选 
择 多 栏 输出 功能 。 


BSD、IBM AIX 及 Sun Solaris 系统 还 提供 vgrind 命 令 ( 注 7)， 它 用 来 过 滤 以 各 种 程 
序 语言 构成 的 文件 , 将 它们 转换 为 troff 输 入 : 斜体 字 为 注释 : 粗 体 为 关键 字 , 并 且 将 
目前 的 功能 注释 在 边缘 ， 将 这 样 的 数据 进行 排版 ， 输 出 为 PostScript。 随 之 衍生 而 来 的 
tgrind ( 注 8) 也 做 类 似 的 工作 ， 只 不 过 有 更 多 的 字体 选项 、 行 编号 、 索 引 ， 并 且 支 持 
更 多 的 程序 语言 。tgrind 产 生 的 是 TEX 输入 ， 可 迅速 产生 PostScript 与 PDF 输出 。 图 
4-1 即 为 其 简单 输出 范例 。 这 两 种 程序 都 可 以 轻松 应 用 于 排版 程序 列表 的 打印 。 


$ tgrind -p hello.c 排版 与 打印 hello.c 
$ tgrind -i 1 -fn Bookman -p hello.c 打印 图 4-1 所 显示 的 列表 
$ vgrind hello.c | 1p 排版 与 打印 hello.c 


注 5: 见 ftp://ftp.gnu.org/gnu/a2ps/, 
注 6: 见 httip://www.math.utah.edu/ub/lptops/. 
注 7: 见 htip://www.math.utah.edu/pub/vgrind/, 


注 8: 见 htip://www.math,.utah.edu/pub/tgrind/, 
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3 
4 
5 
6 
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9 


11 





(hello.c) 


#include <stdio.h> 
#include <stdlib.h> 


const char *hello(void):; 
const char *world(void): 


int . . ; 
main(void) main 


(void)printf("%$s, gs\n", hellod), world0); 
return (EXIT SUCCESS); /* use ISO Standard C exit code */ 
} 


const char * 
hello(void) hello 
{ 


} 


const char * 
world(void) world 
{ 


return ("world"); 


return ("hello); 


Linenumber Index 


hello ym nn 15 | main ....... ee 8 | world ...... ee 21 


19:18 Apr 19 2004 Page 1 of hello.c 








图 4-1 


4.6 


: 用 tgrind 排版 的 一 个 著名 C 语言 程序 


提取 开头 或 结尾 数 行 


有 了 时, 你 会 需要 从 文本 文件 里 把 几 行 字 一 一 多 半 是 靠近 开头 或 结尾 的 几 行 , 提取 出 来 。 
例如 本 书 XML 文件 的 章节 标题 ， 就 全 出 现在 每 个 文件 的 前 几 行 ， 或 者 ， 有 了 时 你 只 要 了 瞧 
瞧 工 作 日 志 的 后 面 几 行 ， 就 可 以 了 解 最 近 工 作 活 动 的 大 概 情况 。 
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这 两 种 操作 都 很 简单 ， 你 可 以 用 下 面 这 几 招 ,显示 标准 输入 前 条 记录 ,或 是 命令 行文 
件 列表 中 的 每 一 个 的 前 n 条 记录 : 


head -n 了 file{s) ] 
head -n file({s) ] 


awk ’'FNR <= D' filels) 


a 


sed -e nq { file{s) ] 








sed nq file(s) ] 
POSIX 要 求 head 选项 需 设 为 -n 3， 不 接受 -3， 但 我 们 测试 过 的 每 个 版 本 ， 这 两 种 设 
置 方式 都 可 以 。 
如 果 只 有 单个 编辑 命令 时 ，sea 允许 省 略 -e 选项 。 
如 果 这 里 显示 的 行 少 于 n， 其 并 非 有 误 。 
要 显示 结尾 数 行 ， 可 以 这 么 做 : 

(Em [ file ] 

tail -nn [ file ] 
就 像 head 一样， POSIX 只 指定 第 一 种 形式 , 但 其 实 两 种 用 法 在 我 们 使 用 的 所 有 系统 里 
都 是 可 接受 的 。 2 Ce ‘ 
说 也 奇怪 ,head 可 以 处 理 命令 行 上 的 数 个 文件 ,但 POSIX 及 传统 的 taii 却 不 行 ， 幸 
好 这 个 不 便 之 处 在 现代 所 有 的 tail 版 本 都 已 修正 。 


在 交互 式 Shell 通 信和 期 中 , 有 时 需要 监控 某 个 文件 的 输出 一 一 如 日 志 这 类 持续 写 入 状态 
的 文件 。-f£ 选 项 这 时 就 派 上 用 场 了 , 它 可 以 要 求 tail 显示 指定 的 文件 结尾 行 数 , 接着 
进入 无 止 尽 的 循环 中 一 一 休息 一 秒 后 又 再 度 醒 来 并 检查 是 否 需 显示 更 多 的 输出 结果 ,在 
设置 -£ 的 状态 下 ，tail 只 有 当 你 中 断 它 时 才 会 停止 一 一 通常 是 输入 Ctrl-C 来 中 断 : 


”SS$tail -na 25 -f /var/log/mesgages 观察 不 断 成 长 的 系统 信息 日 志 


‘Ce Ctrl-C 停 上 tail 
由 于 tail 加 上 -f£ 选项 后 便 不 会 自 己 中 断 ， 所 以 此 选项 不 可 用 于 Shell. 脚 本 。 


因为 tai1 的 工作 必须 一 直 维 护 最 近 记 录 的 历史 , 因此 使 用 awk 或 sed 时 , 没有 更 短 或 
更 简单 的 方式 可 以 替代 tail。 
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第 站 说 


虽然 我 们 无 法 在 这 里 详细 解释 这 些 工具 , 不 过 你 应 留意 下 面 的 几 个 命令 , 这 些 命令 在 本 
书 里 的 一 些小 范例 都 有 用 到 ， 值 得 你 加 入 工具 箱 。 


dd 以 用 户 指定 的 块 大 小 与 数量 拷贝 数据 。 不 过 它 也 具有 一 些 有 限 的 能 力 ， 可 进行 
大 小 写 转换 , 以 及 ASCII 与 EBCDIC 间 的 转换 。 以 字符 集 转换 而 言 , 现代 的 .POSIX 
标准 的 iconv 命 令 可 以 将 文件 从 一 种 编码 集 (code set) 转换 成 另 一 种 更 具 灵 活性 
的 字 码 集 。 


file 将 其 参数 文件 内 容 的 前 几 个 字 节 , 与 样式 数据 库 进 行 比 对 , 再 在 标准 输出 下 ， 
针对 各 文件 显示 一 行 简 短 报 告 。 绝 大 多 数 厂 商 提供 的 file 版 本 都 可 以 识别 100 种 
左右 的 文件 类 型 , 不 过 无 法 分 辨 来自 其 他 UNIX 风 格 的 二 进 制 可 执行 文件 与 对 象 文 
件 , 或 是 来 自 其 他 操作 系统 的 文件 。 还 有 一 种 更 好 用 的 开放 源 代 码 版 本 ( 注 9), 由 
于 有 许多 人 的 贡献 , 让 我 们 可 以 享受 它 的 便利 : 它 识别 的 文件 类 型 有 1200 种 之 多 ， 
包含 许多 非 UNIX 操作 系统 下 的 文件 。 


od 为 八进制 码 转 储 (octal dump) 命令 ， 显 示 ASCII 码 、 八 进 制 以 及 十 六 进 制 的 
字 节 数据 流 。 可 以 在 命令 行 选项 中 设置 要 读 取 的 字 节 数 ， 也 可 选择 输出 格式 。 


strings 针 对 输入 数据 查找 以 换行 符号 或 NUL 结尾 的 四 个 (或 以 上 ) 可 打印 字符 
的 序列 ， 再 将 结果 打印 至 标准 输出 。 多 半 用 来 查看 二 进 制 文件 一 一 例如 编译 后 的 
程序 或 是 数据 文件 的 内 部 信息 。 桌 面 应 用 软件 、 图 像 以 及 声音 文件 有 时 会 在 文件 的 
开头 处 包含 一 些 有 用 的 文本 数据 , 而 GNU 的 head 还 提供 一 个 方便 的 -c 选 项 , 让 
用 户 用 以 限制 输出 的 字符 数 : | 


$ strings -a horne01.jpg | head -c 256 | fmt -w 65 查看 天 文学 图 像 文件 
JFIF :Photoshop' 3.0 8BIM Comet Hale-Bopp shows delicate 

filaments in it's blue ion tail in this exposure made Monday 

morning 3/17/97 using 12.5 inch F/4 Newtonian reflecting 

telescope. The 15 minute exposure was made on Fujicolor SG-800 

Plus film. 8BIM 8BI 


4.7 “小结 


本 章 总 共 介 绍 了 约 30 种 处 理 文本 文件 的 好 用 工具 。 它们 都 是 功能 很 强 的 工具 组 , 可 用 来 
编写 Shell 脚本 。 最 重要 也 最 复杂 的 就 是 sort 了 。 而 fmt、uniqg, 以 及 wc 这些 命 令 则 
常 出 现在 管道 里 ， 用 来 简化 或 摘要 数据 。 当 你 想 迅 速 浏览 一 堆 不 熟悉 的 文件 时 ，file、 
head、strings 以 及 tail 都 会 是 你 的 好 帮手 。 最 后 ，a2ps、tgrind 以 及 vgrind 可 
以 用 来 将 程序 内 容 列 表 输 出 一 一 当然 也 包含 Shell 脚本 ， 从 而 让 你 更 易于 阅读 。 


注 9: 


可 从 ftp://ftp.astron.com/pub/file/ 获取 。 
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本 章 我 们 要 解决 的 是 一 些 相 当 简 单 的 文字 处 理工 作 。 在 本 章 所 有 例子 里 , 最 有 趣 的 就 是 
这 些 脚本 都 是 由 简单 的 管道 构建 而 成 : 命令 一 个 个 串联 起 来 完成 任务 ， 而 每 一 个 又 都 完 
成 步骤 性 的 一 个 重要 任务 。 


当 你 在 UNIX 里 对 付 文字 处 理 作业 时 ， 必须 齐 记 一 个 UNIX 工具 使 用 原则 就 是 : 想 清楚 
这 个 问题 该 如 何 划分 为 更 简单 的 工作 , 每 个 部 分 是 不 是 已 有 现成 的 工具 能 解决 , 还 是 你 
可 以 写 几 行 Shell 程序 或 使 用 脚本 语言 就 能 马上 解决 。 


5.1 ”从 结构 化 文本 文件 中 提取 数据 

在 UNIX 下 的 管理 性 文件 ， 大 部 分 都 是 无 须 使 用 任何 特殊 的 文件 专用 工具 ， 即 可 编辑 、 
打印 与 阅读 的 简易 文本 文件 。 这 些 文件 大 部 分 放 在 标准 目录 : /etc 下 。 最 常见 的 例子 
就 是 密码 文件 与 组 文件 (passwd 与 group)、 文 件 系 统 加 载 表 (fstab 或 vfstab)、 主 
机 文件 (hosts), 以 及 默认 的 Shell 启动 文件 (profile ， 匡 及 系统 启动 与 关机 的 Shell 
脚本 〈 存 放 在 子 目 录 树 *c0.da、rcl.d…zc6.d 之 下 ， 也 有 可 能 是 其 他 目录 )。 


文件 格式 通常 在 UNIX 使 用 手册 的 第 $ 节 (Section 5) 说 明 ， :所 以 执行 fian 5.passwd 
就 能 看 到 /etc/passwd 相 关 的 结构 信 ， 息 ( 注 1:), | 


管 它 叫做 密码 文件 ， 但 它 仍 开 放 给 给 所 有 人 读 取 。 也 许 应 该 电 它 用 户 文件 ， 因为 它 的 内 
ed 息 的 将 这 些 信 息 集结 在 一 起 ; 一 行 表示 一 个 账号 ; 再 
以 冒号 隔 开 各 信息 字段 。 ee 3.1 节 里 已 经 提 过 ， 下 面 我 们 来 看 几 个 典型 的 
条 目 (entry ) : 





注 1: ,有些 系统 的 文件 格式 是 在 第 7 节 (Section 7) ,天 此 在 这 种 情况 下 应 省 执 行 man 7 passwd, 
101 
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jones:*:;32713:899:Adrian W. Jones/OSD211/555-0123:/home/jones:/bin/ksh 
dorothy:*:123:30:Dorothy Gale/KNS321/555-0044:/home/dorothy:/bin/bash 
toto:*:1027:18:Toto Gale/KNS322/555-0045:/home/toto:/bin/tcsh 
ben:*:301:10:Ben Franklin/O0OsD212/555-0022:/home/ben:/bin/bash 
jhancock:*:1457:57:John Hancock/SIG435/555-0099:/home/jhancock: /bin/bash 
betsy:*:110:20:Betsy Ross/BMD17/555-0033:/home/betsy:/bin/ksh 
tj:*;60:33:Thomas Jefferson/BMD19/555-0095:/home/tj:/bin/bash 
george:*:692:42:George Washington/BST999/555-0001: /home/george: /bin/tcsh 


再 来 复习 一 下 ， 密 码 文 件 的 7 个 字段 分 别 是 : 
1. ”用 户 名 称 


2. ”加 密 的 密码 ， 或 指出 密码 存储 于 另外 一 个 文件 中 
3. ”用户 ID (user ID) 数字 


4. 用 户 组 ID (group ID) 数字 

5. 用 户 姓名 ,或 其 他 相关 数据 (办公室 号 码 、 电 话 等 ) 
6.， 根 目录 

7. 登录 的 Shell 


每 个 字段 几乎 对 各 种 不 同 的 UNIX 程序 都 很 重要 ， 第 5 个 字段 除外 。 传 统 上 ， 第 5 个 字 
段 用 来 置 放 用 户 相关 信息 。 其 实 原本 它 叫 做 gecos 字段 ， 这 个 名 称 有 历史 原因 ， 它 是 在 
20 世纪 70 年 代 在 贝尔 实验 室 时 加 入 的 ， 当 初 是 为 了 让 UNIX 系统 能 与 其 他 运行 通用 电 
子 综合 操作 系统 (General Electric Comprehensive Operating System) 的 计算 机 进行 i 
信 而 产生 的 ， 后 者 需要 UNIX 用 户 相关 的 额外 信息 。 今 天 ， 多 数 站 点 将 它 用 来 存放 用 户 
姓名 ， 所 以 我 们 把 它 简 称 为 姓名 字段 。 


以 这 个 范例 而 言 , 我 们 假定 本 地 端 站 点 在 姓名 字段 里 存 有 其 他 信息 : 建筑 物 与 办 公 室 号 
码 (例如 范例 第 一 条 记录 里 的 O0SD211)， 以 及 电话 号 码 〈555-0123)， 且 这 些 数据 与 个 
人 姓名 以 斜 杠 分 隔 。 


我 们 可 以 利用 像 这 样 的 文件 ,编写 一 些 软件 , 建立 一 份 办 公 室 名 录 。 通过 这 种 方式 ， 只 
需要 维持 一 份 文件 /etc/passwd 的 最 新 状态 , 当主 文件 改变 时 , 衍生 文件 便 会 产生 , 更 
机 动 的 方法 是 使 用 cron, 让 它 隔 一 段 时 间 执 行 一 次 《我 们 将 在 13.6.4 节 中 讨论 cron)。 


我 们 的 首 度 尝试 ， 是 要 做 出 一 个 简单 的 办 公 室 名 录 文本 文件 ， 完成 后 应 该 是 这 样 ; 


Franklin, Ben *OSD212。555-0022 
Gale, Dorothy *KNS321。555-0044 


其 中 , 。 表 示 ASCII 的 制 表 字 符 (Tab)。 在 姓名 上 ,我 们 沿用 传统 名 录 顺 序 ( 姓 在 先 )， 
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用 空白 填补 姓名 字段 ,让 每 个 姓名 字段 都 有 固定 长 度 。 然 后, 在 办 公 室 编号 与 电话 号 码 
前 放置 制 表 字 符 (Tab)， 以 保留 某 种 便利 的 结构 ， 让 其 他 工具 也 能 善 加 利用 此 数据 。 


像 awk 这 样 的 脚本 语言 的 设计 就 是 为 了 让 这 类 工作 更 简单 ,因为 它们 提供 自动 化 的 输入 
处 理 , 并 将 输入 记录 分 割 成 字段 ,所 以 我 们 可 以 完全 在 这 样 的 语言 中 编写 转换 工作 。 不 
过 ， 我 们 希望 展现 的 是 : 如 何 使 用 其 他 UNIX 工具 达到 相同 目的 。 


就 密码 文件 的 各 行 来 看 ， 我 们 需要 提取 字段 5， 将 它 分 割 为 三 个 子 字段 ， 再 重新 安排 将 
姓名 放 在 第 一 个 子 字段 ， 接 着 写 人 一 个 办 公 室 名 录 行 ， 供 排序 进程 使 用 。 


awk 与 cut 是 提取 字段 的 好 工具 : 


人 
“ 并 Fake -ds: ES § ,os 


稍稍 复杂 的 地 方 在 于 我 们 有 两 个 字段 要 处 理 , 为 简单 化 , 我 们 希望 它们 保持 分 隔 , 但 又 
需要 结合 它们 的 输出 ， 以 便 产生 名 录 记 录 。join 命令 符合 我 们 的 需求 : 它 期 待 两 个 输 
入 文件 , 且 这 两 个 文件 里 的 记录 都 以 相同 的 唯一 键 值 排 序 ,将 共享 相同 键 值 的 行 结合 后 ， 
产生 单一 输出 行 ， 并 由 用 户 控制 要 输出 的 字段 。 


由 于 我 们 的 名 录 要 包含 三 个 字段 ， 因 此 使 用 join 时 要 建立 三 个 中 间 文 件 , 这 三 个 中 间 
文件 包含 以 冒号 隔 开 的 key:person、key:office 以 及 key:telephone, 每 一 对 对 应 一 行 。 这 
些 可 以 是 临时 性 文件 ， 因 为 它们 可 以 自动 从 密码 文件 中 衍生 出 来 。 


那么 , 我 们 要 用 的 键 值 (key) 是 什么 ? 它 只 要 是 唯一 的 即 可 。 所 以 原始 密码 文件 的 记录 
编号 也 可 以 , 但 在 这 里 ,我们 可 以 将 用 户 名 称 (username) 作为 键 值 ， 因 为 我 们 知道 密 
码 文件 里 的 用 户 名 称 必 须 是 唯一 值 ， 且 对 我 们 而 言 ， 这 个 值 比 数字 有 意义 多 了 。 之 后 ， 
如 果 我 们 想 在 名 录 里 加 上 额外 信息 , 例如 工作 职称 , 即 可 使 用 key:jobtitle 建 立 另 一 个 非 
临时 性 的 文件 ， 然 后 把 它 加 入 处 理 程序 。 


这 种 将 程序 视 为 过 滤器 、 读 取 标 准 输入 、 写 到 标准 输出 的 做 法 , 与 将 输入 、 输 出 文件 名 
直接 编码 到 程序 (hardcoding) 的 做 法 相 比较 ， 更 具 灵 活性 。 对 于 较 不 常用 的 命令 ， 最 
好 是 在 程序 里 写 上 用 途 说 明 , 而 不 是 用 简单 或 者 隐 密 性 的 名 称 简略 交代 过 去 。 因 此 , 我 
们 的 Shell 程序 一 开始 就 会 像 这 样 : 

#! /bin/sh 


# 过 滤 /etc/passwd 这 类 格式 的 输入 流 ， 
# 并 从 此 数据 衍生 出 办 公 室 名 录 。 


## 

# 语法 : 

# passwd-to-directory < /etc/passwd > office-directory-file 

ypcat passwd | passwd-to-directory > office-directory-file 

入 niscat passwd.org_dir | passwd-to-directory > office-directory-file 
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由 于 密码 文件 是 所 有 人 都 可 读 取 的 , 任何 由 此 文件 导出 的 数据 也 是 这 样 ， 因 此 事实 上 我 
们 并 不 需要 限制 这 个 程序 中 间 文 件 的 访问 权限 。 不 过 , 由 于 我 们 绝 大 多 数 处 理 的 都 是 敏 
感性 数据 , 所 以 在 开放 程序 时 应 养 成 一 个 好 习惯 : 仅 允 许 需要 用 到 这 个 文件 的 用 户 或 进 
程 访问 它 。 我 们 因此 将 把 下 ( 见 附录 B) 重新 设置 为 程序 中 的 第 一 个 操作 ， 


umask 077 限制 临时 性 文件 只 4A 有 我 们 可 以 访问 


为 了 解 文件 任务 且 便 于 调试 ， 让 临时 性 文件 具有 部 分 共通 名 称 会 比较 方便 ， 这 样 一 来 ， 
也 可 以 避免 因为 这 些 文件 而 和 弄 乱 当前 前 目录 : 我 们 在 命名 时 将 它们 的 文件 名 前 都 放置 
/tmp/pd.。 此 外 ， 为 避免 程序 的 多 个 实例 在 同一 时 间 执 行 时 发 生 名 称 冲 突 ， 我 们 也 必 
须 使 其 名 称 具 有 唯一 性 , 在 这 里 也 就 是 使 用 进程 编号 : 可 以 在 Shell 变 量 $$ 里 使 用 , 将 
其 放置 在 结尾 ， 可 通过 字 尾 区 别 它们 ($$ 的 用 法 详 见 第 10 章 )。 因 此 ， 我 们 定义 这 些 
Shell 变量 ， 表 示 我 们 的 临时 性 文件 ; 

PERSON=/tmp/pd.key .person.$s$ 具 唯 一 性 的 临时 性 文件 名 

OFFICE=/tmp/pd.key .office.s$s$ : 5 

TELEPHONE=/tmp/pd.Kkey .telephone.s$s$ 

,USER=/tmp/pd.key .user.$$ | 

当 工 作 终 止 时 ， Wo ks 我 们 都 要 让 临时 性 文件 消失 ， 因此 使 用 trap 
命令 : 


trap "exit 1" | HUP INT PIPE QT TERM 
trap "rm -f $PERSON $OFFICE $TELEPHONE $USER" EXIT 


在 开发 步 又 ,我 们 仅 将 第 二 个 trap 命 令 加 上 注释 ,以 保留 临时 性 文件 供 稍 后 检查 (trap 
命令 在 13.3.2 节 里 会 详细 介绍 。 在 此 ， 了 解 当 脚本 离开 时 ，trap 命令 会 使 用 给 定 的 参 
数 以 自动 执行 rm 就 够 了 ) 。 

我 们 需要 重复 执行 取出 字段 ! 与 5 的 操作 ， 一 旦 得 到 这 些 信息 ， 就 无 须 再 从 标准 输入 取 
得 输入 流 了 ， 所 以 我 们 可 以 先 将 它们 取出 后 放 进 临时 性 文件 : 

awk -F: '{ print $1 ":" $5 > $USER. 读 取 标准 输入 “ 

我 们 先 作 key:person 这 组 文件 , 配合 两 步骤 的 sed 程 序 , 再 接 上 一 行 简单 的 sort， sort 
命令 ， 在 4.1 节 里 已 介绍 过 。 


Sed -e 's=/.*==’' \ 
Se ENN NE 1*\)=\1;\3, \2=' <S$USER | sort >$PERSON 


这 段 脚 本 使 用 = 作为 sea 命令 的 分 隔 字符 ,因为 斜 枉 和 冒号 在 数据 内 容 里 都 有 了 。 第 一 
个 编辑 操作 是 将 第 一 个 斜 杠 直至 行 结尾 的 所 有 数据 提取 出 来 ， 例 如 ， 如 下 的 一 行 : 


jones:Adrian W. Jones/0SD211/555-0123 输入 行 
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处 理 后 ， 成 为 : 

jones:Adrian W. Jones 首次 编辑 后 的 结果 
第 二 个 编辑 就 稍 复杂 些 : 匹配 记录 里 的 三 个 子 模式 。 第 一 段 :“\([^:]*\) 匹配 用 户 名 
称 字段 〈 例 : jones); 第 二 段 :\(.*\) 口 匹配 文字 到 空白 处 ( 例 :; AdarianDW. 口 , 口 
表示 一 个 空格 字符 )， 最 后 一 段 \(f^ 口 ] *\ ) 匹配 记录 里 剩 下 的 非 空 白文 字 (例如 : 
Jones)。 将 置换 后 的 文字 重新 整理 出 匹配 的 数据 ， 产 生 像 Jones, 口 Adrian W. 这 样 
的 结果 ， 这 行 sed 命令 所 产生 的 结果 就 是 我 们 预期 的 新 顺序 : 


jones:Jones, Adrian W. 显示 第 二 个 编辑 的 结果 
下 一 步 要 作 的 是 key:office 文件 : 

sed -e 's=~\([I~:]*\): I/AI*/\ (CIN/]*\)/.*$=\1:\2=' < SUSER | sort > S$OFFICE 
结果 是 列 出 用 户 与 办 公 室 信息 : 

| jones:0SD211 
再 来 的 key:telephone 操作 也 差不多 : 只 要 将 匹配 模式 稍 做 调整 即 可 ，: 

sed -e's=~\ (TS:]e) :I/II /A (INI NN) =\ 1:\2=! < $USER ] sort > $TELEPHONE 


在 这 个 步骤 , 已 有 了 三 个 单个 文件 , 都 已 完成 排序 ， 也 都 含有 键 值 ( 也 就 是 用 户 名 称 )、 
冒号 ,以 及 特定 数据 〈 姓 名、 办 公 室 编号 与 电话 号 码 ) 。$PERSON 文 件 的 内 容 看 起 来 会 
像 这 样 : 

ben:Franklin, Ben 

betsy:Ross, Betsy 


SOFFICE 文件 里 包含 用 户 名 称 与 办 公 室 数据 ; 


ben:OSD212 
betsy :BMD17 


$TELEPHONE 文件 记录 了 用 户 名 称 与 电话 号 码 : 


ben:555-0022 
betsy:555-0033 


join 的 默认 行为 是 输出 共同 键 值 ， 然 后 是 第 一 个 文件 里 这 行 剩余 的 字段 ， 紧 接着 来 自 
第 二 个 文件 里 剩余 的 字段 。 这 个 共同 键 值 默 认为 第 一 个 字段 , 不 过 这 可 以 通过 命令 行 选 
项 来 修改 : 我 们 这 里 不 需要 此 功能 。 通常 join 是 以 空格 (space) 来 分 隔 字 段 , 不 过 我 
们 可 以 使 用 -t 选项 更 改 分 隔 符 : 在 这 里 我 们 使 用 -t:。 
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join 使 用 一 个 五 步骤 的 管道 完成 ， 过 程 如 下 : 
1. 结合 个 人 信息 与 办 公 室 位 置 : 


join -t: $PERSON SOFFICE | ... 
这 个 运算 的 结果 将 成 为 下 一 步骤 的 输入 ， 如 下 所 示 : 


ben:Franklin，Ben:OSD212 
betsy:Ross，Betsy:BMD17 


2， 加 入 电话 号 码 ， 
. | join -t: - STELEPHONE | ... 
这 里 的 操作 结果 一 样 也 会 成 为 下 一 步骤 的 输入 ， 如 下 所 示 : 


ben:Franklin, Ben:0OSD212:555-0022 
betsy:Ross, Betsy:BMD17:555-0033 


3. ”删除 键 值 (也 就 是 第 一 个 字段 )， 因 为 我 们 不 再 需要 它 。 最 简单 的 方式 就 是 使 用 
cut， 而 这 里 的 范围 是 指 “ 使 用 字段 2 直到 最 后 " ， 如 下 所 示 : 
.| cut -d: -ff 2- | ... 
这 个 运算 的 结果 ， 同 样 成 为 下 个 步骤 的 输入 : 


Franklin, Ben:O0SD212:555-0022 
Ross, Betsy:BMD17:555-0033 


4. ”数据 重新 排序 ,数据 之 前 已 按照 登录 名 称 排序 完成 , 但 现在 我 们 要 的 是 以 个 人 的 姓 
来 排序 ， 这 里 使 用 sort 命令 : 
:| gort -Es REL da Ads | i 
这 条 命令 是 以 冒号 分 隔 字段 ， 依 次 对 字段 1、2 与 3 进行 排序 。 运 算 的 结果 是 下 一 
步骤 的 输入 : 


Franklin，Ben:OSD212:555-0022 
Gale, Dorothy:KNS321:555-0044 


5. 最 后 , 重新 格式 化 输出 , 使 用 awk 的 printf 语 句 ， 配合 制 表 字 符 (Tab) 分 隔 每 
个 字段 。 命 令 如 下 : 


. | awk -F: '{ printf("%-39s\t%s\t$%s\n", $1, $2, $3) }' 


为 了 灵活 性 以 及 将 来 能 易于 维护 , 格式 化 应 该 留 到 最 后 。 一 直到 这 里 , 所 有 内 容 都 
还 只 是 任意 长 度 的 文本 字符 申 。 


这 里 是 完整 的 管道 : 


join -t: $PERSON SOFFICE | 
join -t: - $TELEPHONE | 
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cut -Q: -ft 2- | 
Sort -t: -kl,1] -k2,2 -k3,3 | 
awk -F: '{ printf("%-39s\t%s\tss\n", $1, $2, $3) }' 


awk 的 printf 语 旬 在 这 里 的 用 法 有 点 类 似 Shell 的 printf 命 令 : 用 冒号 作为 分 隔 字符 ， 
显示 第 一 个 字段 , 并 让 字段 1 显示 来 的 结果 固定 为 向 左 对 齐 的 39 个 字符 长 度 , 紧 接 着 一 

个 制 表 字 符 (Tab)， 再 接着 第 二 个 字段 ， 加 上 另 一 个 制 表 字符 , 再 接 上 第 三 个 字段 , 完 
结果 如 下 : 


Franklin, Ben J *OSD212。555-0022 
Gale, Dorothy *。KNS321。555-0044 
Gale, Toto *KNS322。555-0045 
Hancock, John *STG435。555-0099 
Jefferson, Thomas *BMD19。555-0095 

Jones, Adrian 'W. *OSD211。555-0123 
Ross, Betsy *BMD17。555-0033 

Washington, George *BST999。555-0001 


所 有 的 操作 都 已 完成 ! 整个 脚本 总 共用 了 20 多 行 (不 含 注释 ), 即 已 包括 了 五 个 主要 处 
理 步 又 。 这 些 过 程 整理 后 如 例 5-1 所 示 。 


例 5-1: 建立 办 公 室 名 录 
#1 /bin/sh 


# 过 滤 /etc/passwd 这 类 格式 的 输入 流 ， 
# 并 以 此 数据 衍生 出 办 公 室 名 录 。 


# 

# 语法 : 

# passwd-to-directory < /etc/passwd > office-directory-file 

间 ypcat passwd | passwd-to-directory > office-directory-file 

# niscat passwd.org.dir | passwd-to-directory > office-directory- file 
umask 077 


PERSON=/tmp/pd.key .person.s$s$ 
OFFICE=/tmp/pd.key .office.s$s$ 
TELEPHONE=/tmp/pd.key .telephone.s$s$ 
USER=/tmp/pd.key .user .SS 


trap "exit 1" | HUP INT PIPE QUIT TERM 
trap "rm -f SPERSON SOFFICE STELEPHONE S$USER* EXIT 


awk -F: :{ print $1 *:* $5 }' > $USER 


SeQ -e 's=/.*==: \ 
-e 'S=\{[~:]*\)}:\(.*\) NI J*\)=\1:\3, \2=' < SUSER | sort > $PERSON 


sed -e Ss (CNAA) N/T/ (N/AN) /$=\l:\22 < $USER | sort > SOFFICE 
sed -~e !'S=^NI^ 人 :1]x*N\):[^/*V eV /A\ (N/AI*\)=\1:\2=: < SUSER | sort > $TELEPHONE 


join -t: $PERSON SOFFICE | 
join -t: - STELEPHONE | 
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cut -d: -f 2- 
Sort -t: -~kl1,1 -k2,2 -k3,3 | 
awk -F: '{ printf{("%-39s\t%s\t%s\n”, $1, $2, $3) }! 


Shell 脚本 真正 好 用 的 地 方 是 ， 当 我 们 想 修改 脚本 让 它 做 点 不 一 样 的 事 ， 例 如 插入 由 
Key:jobtitle 文件 而 来 的 工作 职称 时 ， 只 需要 修改 最 后 的 管道 ， 如 下 所 示 ， 


join -t: $PERSON /etc/passwa.job-title | 用 来 取出 工作 职称 的 join 


join -t: - SOFFICE | 
join -t: - STELEPHONE | 
cut -d: -~f 2- 
sort -t: -kl,1 -k3,3 -k4,4 | 修改 sort 命令 


awk -F: '{ printf {"%$-39s\t%-23s\t$s\t$Ss\n", 
$1, $2, $3, $4) }' 格式 化 命令 


多 加 一 个 额外 的 名 录 字 有 段 的 总 成 本 是 多 一 个 join、 更 改 sort 字 段 以 及 调整 最 后 的 awk 
格式 化 命令 。 


由 于 我 们 小 心地 在 输出 结果 上 保留 特殊 的 字段 定 界 符 , 因 此 可 以 不 留 痕迹 地 准备 好 替代 
的 名 录 ， 如 下 所 示 : 


passwd-to-directory < /etc/passwd | sort -~t'*’' -k2,2 > dir.by-office 
passwd-to-directory < /etc/passwd | sort -t'*e' -Kk3,3 > dir.by-telephone 


如 前 所 述 : 。 表 示 ASCII 的 制 表 字符 。 


在 此 程序 里 , 重要 的 假设 是 在 每 条 数据 记录 的 一 个 唯一 键 值 (unique key)。 有 了 这 个 唯 
一 键 值 , 数据 的 各 种 不 同 视图 可 以 用 成 对 的 key:value 方 式 维护 在 文件 中 。 这 里 的 键 值 为 
UNIX 的 用 户 名 称 ， 但 在 较 大 型 的 例子 中 ， 键 值 很 有 可 能 是 书目 编号 (ISBN)、 信 用 卡 
号 码 、 员 工 编号 、 国 家 退休 体系 编号 、 产 品 序号 、 学 号 等 。 现在 你 终于 知道 我 们 身上 有 
多 少 编号 了 吧 ! 有 时 在 处 理 这 些 数据 时 需要 的 不 一 定 是 号 码 :只 是 需要 具 唯 一 值 的 文本 
字符 串 。 . 


5.2 ”针对 Web 的 结构 型 数据 


由 于 World Wide Web (WWW) 广 为 流 行 , 所 以 在 前 一 节 中 开发 办 公 室 名 录 的 形式 , 可 
以 稍 作 修 改 ， 让 数据 以 较 漂亮 的 形式 呈现 。 


Web 文 件 多 半 都 是 由 Hyper Text Markup Language (HTML) 语言 写成 它 是 Standard 
Generalized Markup Language (SGML) 家 族 语言 之 一 ， 而 SGML 自 1986 年 起 ， 陆 续 
被 定义 在 数 个 ISO 标 准 中 。 本 书 的 原稿 是 用 DocBook/XML 写成 , 它 也 是 SGML 的 一 个 
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特定 实例 。 如 果 你 有 兴趣 , 可 参考 (HTML in HTML & XHTML: The Definitive Guide》 
(O"Reilly) ， 该 书 对 HTML 有 完整 介绍 ( 注 2)。 


数据 库 小 记 
现今 许多 商用 数据 库 痢 以 “关系 数据 库 ” 构 建 ; 数据 可 以 以 一 对 key:value 形式 访 
问 ， 并 结合 (join) 操作 用 于 构成 多 栏 表格 ， 提 供 选 定 的 数据 子 集 的 视图 。 关 系数 
据 库 是 由 E.F.Codd* 在 1970 年 首 度 提出 , 尽管 数据 库 业 界 初始 反对 ,认为 关系 数据 
库 无 法 有 效率 地 实现 出 来 ， 不 过 Codd 仍 积极 地 推动 着 。 幸 好 ， 聪 明 的 程序 设计 师 
们 马上 就 找到 了 解决 效率 问题 的 方法 。Codd 功 不 可 没 ， 在 1981 年 他 拿 到 了 ACM 
图 灵 奖 ， 这 个 奖项 被 誉 为 计算 机 科学 领域 里 的 诺 贝尔 奖 。 


时 至 今日 ， 陆 续 出 现 许 多 Structured Query Language (结构 化 查询 语言 ) 的 ISO 
标准 ， 让 独立 于 厂商 的 数据 库 可 以 被 访问 ， 而 这 其 中 最 重要 的 一 个 SQL 操作 ， 就 


是 join。 讨论 SQL 的 书 已 经 很 多 了 ， 若 你 想 再 进一步 了 解 ， 可 以 挑 一 本 通用 的 书 
参考 ， 例 如 《SQL in a NutShell》?。 我 们 的 简易 办 公 室 名 录 操 作 也 包含 了 现代 关 
系数 据 库 核心 概念 的 重要 课题 以 及 UNIX 软 件 工具 ,在 准备 向 数据 库 中 输入 数据 并 
处 理 它们 的 输出 时 ， 这 些 工 具 也 是 很 有 用 的 。 





a: E.F.Codd, 《A Relational Model of Data for Large Shared Data Banks》, Communications of 
the ACM, 13(6) 377-387, June (1970) ,及 Relational Database: 《A Practical Foundation for 
Productivity), Communications of the ACM, 25(2) 109-117, February(1982)(Turing Award 
讲座 ) 。 

b: Kevin Kline 与 Daniel Kline 合 著 ，O"Reilly & Associates 出 版 ，ISBN 1-56592-744-3。 其 
他 SQL 相关 书籍 列表 也 可 参考 htip://www.math.utah.edu/pub/tex/bib/sqlbooks.html.。 


我 们 在 这 个 小 节 , 只 需要 小 型 的 HTML 子 集 , 这 部 分 我 们 将 用 一 小 段 文 字 来 介绍 。 如 果 
你 对 HTML 已 熟悉 ， 可 以 跳 过 这 两 页 。 


下 面 是 我 们 写 的 一 个 遵循 标准 的 小 型 HTML 文 件 , 是 由 我 们 其 中 一 人 所 编写 的 一 个 好 用 
工具 所 产生 的 ( 注 3)， 


$ echo Hello, world. | html-pretty 
<!-- -*-html-*- --> 


注 2; 除 该 书 外 (已 列 于 书后 的 参考 书目 ) ， 还 有 许多 SGML 与 其 衍生 产物 的 书 列 于 http:// 
www.math.utah.edu/pub/tex/bib/sgml.html 与 http://www.math.utah.edu/pub/tex/bib/ 
Sgml2000.html， 可 供 读 者 参考 。 


注 3: 见 htip://www.math.utah.edu/pub/sgml/, 
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<!-- Prettyprinted by html~-pretty flex version 1.01 [25-Aug-2001] --> 
<!-- on Wed Jan 8 12:12:42 2003 --> 
<!-- for Adrian W. Jones {jones@example.com) --> 


<1DOCTYPE HTML PUBLIC "-//IETF//DTD HTML//EN'> 
<HTML> 
<HEAD> 
<TITLE> 
<!-- Please supply a descriptive title here --> 
</TITLE> 
<!-- Please supply a Correct e-mail address here --> 
<LINK REV="made" HREF="mailto:jones@example.com'"> 
</HEAD> 
<BODY> 
Hello, world. 
</BODY> 
</HTML> 


在 这 个 HTML 输出 中 ， 值 得 注意 的 事项 如 下 : 


。 HTML 以 <!-- 与 --> 括 住 注释 。 


特殊 处 理 器 命令 包含 在 <! 与 > 之 中 ; 这 里 DOCTYPE 命 令 是 告诉 SGML 子 句 解析 器 
文件 类 型 是 什么 ， 以 及 去 哪里 寻找 其 语法 文件 。 


。 ”填写 在 尖 括 号 里 的 标记 字 组 , 叫做 标签 (tag)。 在 HTML 里 , 标签 名 称 里 的 字母 大 
小 写 不 重要 : html-pretty 将 标签 里 的 字母 全 都 设置 为 大 写 ， 是 为 了 便于 阅读 。 


。 ”标记 (markup) 语言 写 的 代码 包括 一 个 起 始 标签 < NAME> 与 一 个 结束 标签 
</NAME>， 且 对 许多 标签 而 言 ， 可 贬 套 设置 ， 只 要 遵循 HTML 语法 里 定义 的 规则 
即 可 。 


。 ”HTML 文件 是 以 包含 一 个 HEAD 与 一 个 BODY 的 HTML 对 象 构建 而 成 。 


。 ”在 HEAD 里 , TITLE 对 象 定义 的 是 文件 标题 , 也 就 是 显示 在 浏览 器 窗口 标题 栏 上 的 
那个 ， 也 是 书签 列表 的 默认 名 称 。 再 者 ， HEAD 里 ， 还 有 一 个 LINK 对 象 ， 这 多 半 
是 用 来 给 出 网 页 维护 者 的 相关 信息 。 

。 这 个 文件 里 ， 浏 览 器 显示 可 看 得 见 的 范围 则 是 BODY 的 内 容 。 

。 “引号 括 起 来 字符 串 以 外 的 空格 不 重要 ,所 以 我 们 可 以 自由 地 使 用 垂直 与 水 平 的 空格 

以 完整 地 呈现 所 要 强调 的 结构 ， 就 像 HTML 的 prettyprinter 所 做 的 那样 。 

所 有 其 他 内 容 都 是 可 打印 的 ASCII 文 字 , 只 有 三 个 例外 。 字面 上 的 尖 括 号 必须 以 特 

殊 编 码 体现 , 叫做 实体 (entities) ， 它 包括 & 符 号、 标识 符 (identifier) 以 及 分 号 ， 

例如 ; &lt; 与 &gt;。 因 为 & 已 用 来 作为 实体 的 起 始 字 母 ， 所 以 它 自 身 有 字面 上 的 

实体 名 称 : &amp; 。 针对 重音 字符 , HTML 支 持 一 个 具有 最 现代 的 所 有 功能 的 实体 ， 

涵盖 了 大 部 分 我 们 可 以 书写 的 西欧 语言 ,例如 ,caf&eacute; Gu bon gogucirc;t 

会 得 到 café du bon golit。 
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。 ”虽然 我 们 的 小 型 范例 里 未 提 及 ， 字 体 的 修改 也 是 可 以 在 HTML 里 做 到 ， 可 使 用 B 
( 粗 体 )、EM (音节 强调 )、I (斜体 )、STRONG ( 特 粗 ) 以 及 TT (打字 机 字体 ( 固 
定 宽度 字符 ) ) 环境 ， 当 你 写 <B>bold phrase</B>， 会 得 到 bold phrase。 


要 将 我 们 的 办 公 室 名 录 转 换 成 正式 的 HTML， 只 需要 再 知道 一 件 事 ， 如何 格式 化 表格 ， 
因为 那 才 是 真正 的 办 公 室 名 录 , 且 我 们 不 想 使 用 打字 机 字体 , 强制 每 一 行 在 浏览 器 上 显 
示 时 排列 一 致 完全 对 齐 。 


在 HTML 3.0 及 之 后 的 版 本 上 ， 表 格 包括 一 个 TABLE 环境 ， 其 内 有 行 ， 每 行 是 一 个 表 
格 行 (TR) 环境 。 在 每 一 行 里 是 单元 格 (cell) ， 叫 做 表格 数据 ， 每 个 单元 格 是 一 个 TD 
环境 。 特 别 值得 一 提 的 是 , 每 列 (垂直 ) 数据 不 接收 任何 特殊 标记 : 一 个 数据 列 是 一 组 
单元 格 ， 取 自 表格 里 所 有 行 (水 平 ) 中 相同 的 行 位 置 。 幸 好 ， 我们 无 须 预 先 声明 行 与 列 
的 数目 。 浏览 器 与 格式 化 程序 的 工作 便 是 收集 所 有 的 单元 格 , 知道 在 每 一 列 内 的 最 宽 单 
元 格 ， 再 将 表格 格式 化 ， 使 其 列 宽 够 大 ， 足 以 能 够 容纳 那些 最 宽 的 单元 格 。 


在 我 们 的 办 公 室 名 录 范 例 中 ， 只 需要 三 列 ， 所 以 标记 范例 如 下 : 
<TABLE> 
<TR> 
<TD> 
Jones, Adrian W. 
</TD> 
<TD> 
S555-0123 
</TD> 
<TD> 
OSD211 
</TD> 
</TR> 
< /TABLE> 
另 一 种 等 效 的 但 较 复杂 也 较 难 阅读 的 方式 为 ; 
<TABLE> 
TR Adrian W.</TD><TD>555-0123</TD><TD>0SD211</TD></TR> 
< /TABLE> 
因为 我 们 选择 保留 办 公 室 名 录 纯 文本 版 里 的 特殊 字段 分 隔 字符 ,所 以 有 足够 的 信息 可 以 
识别 每 列 中 的 单元 格 。 而且, 因为 HTML 文 件 里 , 空白 多 半 不 带 特 殊 含义 , 我 们 就 不 需 
要 特别 注意 标签 是 否 完好 排列 。 如 果 之 后 有 需要 ，html-pretty 还 是 可 以 做 得 很 完美 。 
我 们 的 转换 过 滤器 有 三 个 步 又 : 
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1. 输出 前 置 的 样板 文件 (boilerplate) 直到 内 文 开 始 处 。 
2. ”将 名 录 里 的 每 一 行 包括 在 表格 标记 里 。 
3. ”输出 结尾 的 样板 文件 (boilerplate)。 


我 们 得 在 这 个 小 范例 里 作 点 小 变动 : 将 DOCTYPE 命令 更 新 为 近期 版 本 的 语法 层级 , 看 
起 来 就 像 这 样 : 


<!DOCTYPE HTML PUBLIC "~-//IETF//DTD HTML//EN//3.0"> 


你 无 须 记 住 这 个 ， 因 为 html-pretty 有 选项 可 产生 任何 标准 HTML 语法 层级 的 输出 ， 
所 以 你 只 要 从 它 的 输出 中 ， 复 制 适 用 的 DOCTYPE 命令 即 可 。 


至 此 , 显然 大 部 分 的 工作 只 是 在 编写 样板 文件 (boilerplate), 不 过 这 很 简单 ， 因 为 我 们 
可 以 从 小 HTML 范 例 中 复制 文字 。 唯一 比较 侧重 编程 的 步骤 是 在 中 间 部 分 , 这 部 分 只 需 
几 行 awk 就 可 以 办 到 。 不 过 , 使 用 sed 流 编辑 程序 的 替换 功能 , 可 以 更 简化 工作 , 需要 
两 个 编辑 命令 : 一 个 是 以 </TD><TD> 取 代 贬 入 的 制 表 符 定 界 符 , 另 一 个 是 将 整 行 包括 
在 <TR><TD>.. .</TD></TR> 中 。 我 们 先 临 时 假设 名 录 里 没有 重音 字符 , 不 过 就 算 要 将 
尖 插 号 与 & 符 号 加 到 输入 流 里 也 不 难 , 只 要 增加 三 个 初始 的 sed 步 又 即 可 。 我 们 将 完整 
的 程序 集 放 在 例 5-2 中 。 


例 5-2: 将 办 公 室 名 录 转 换 为 HTML 格式 
#! /bin/sh 


# 将 制 表 符 (Tab) 所 分 隔 的 文件 ， 转 换 为 遵循 语法 的 HTML 
# 
# 用 法 : . 
# tsv-to-html < infile > outfile 
cat << EOFILE 开头 的 样板 文件 (boilerplate) 
<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML//EN//3.0"> 
<HTML> 
<HEAD> 
<TITDE> 
Office directory 
</TITLE> 
<LINK REV="made" HREF="mailto:$USER@‘hostname ` "> 
</HEAD> 
<BODY> 
<TABLE> 
EOFILE 


sed -e 's=&=\&amp;=g' \ 将 特殊 字符 转换 为 实体 (entities) 
-e 's=<=\&lt;=g' \ 4 
-e 'S=>=\&gt;=g' \ 
-e 's=\t=</TD><TD>=g' \ 提供 表格 标记 (markup) 
= <TR><TD>&</TD></TR>=" 
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cat << EOFILE 结尾 的 样板 文件 (boilerplate) 
</TABLE> 
</BODY> 
</HTML> 
EOFILE 


<< 标 记 称 为 戏 入 文件 (here document)。 这 点 在 7.3.1 节 里 有 较 详 细 的 解说 。 简单 地 讲 ， 
Shell 读 取 所 有 行 , 直到 接 在 << 之 后 的 定 界 符 为 止 (在 本 例 是 EOFILE)., 在 被 包含 的 行 
上 执行 变量 与 命令 替换 ， 以 及 将 结果 当成 标准 输入 给 命令 。 


例 5-2 的 脚本 里 很 重要 的 一 点 就 是 : 表格 中 的 列 〈 垂 直 ) 数 是 完全 独立 的 ! 即 它 可 以 用 
来 将 任何 以 制 表 字 符 (Tab) 分 隔 的 文件 转换 成 HTML。 电 子 表格 程序 通常 会 以 这 样 的 
格式 存储 数据 ， 所 以 我 们 的 简单 工具 ， 可 以 将 电子 表格 数据 转换 产生 正确 的 HTML。 


我 们 对 于 tsv-to-html 很 小 心 , 是 为 了 维护 原始 办 公 室 名 录 的 空格 结构 , 因为 这 么 一 来 
我 们 往 下 应 用 更 进一步 的 过 滤器 时 会 很 轻松 。 没 错 ，html-pretty 正 是 为 此 而 编写 的 。 
HTML 标记 配置 的 标准 化 ， 大 大 地 简化 了 其 他 HTML 工具 程序 的 工作 。 


那么 ,我 们 要 如 何 将 重音 字符 转换 为 HTML 实 体 昵 ?我 们 当然 可 以 加 入 额外 的 编辑 步骤 
来 扩展 sed 命 令 , 如 加 入 -e 's=é=&eacute;=9g'。 可是， 这 里 有 100 个 左右 的 实体 要 
满足 , 而且, 当 需 要 将 其 他 形式 的 文本 文件 转换 成 HTML 时 , 我们 可 能 也 会 需要 相似 的 
替换 。 


这 就 是 为 什么 应 该 将 这 样 的 工作 分 给 另 一 个 程序 来 做 , 让 我 们 日 后 能 再 重复 使 用 , 无 论 
它 是 作为 管道 步骤 , 紧 接 着 例 5-2 的 sed 命 令 , 还 是 作为 稍 后 要 应 用 的 过 滤器 (这 是 “ 转 
而 构建 专门 的 工具 ”原则 ) 。 这 样 的 程序 只 是 一 个 含有 蔡 换 命令 的 宛 长 乏味 的 列表 ， 且 
我 们 需要 每 个 本 地 文本 内 码 的 相对 信息 ， 例 如 各 种 的 ISO 8895-n 内 码 页 (code page)， 
这 部 分 在 附录 B 中 已 有 介绍 。 我 们 不 在 这 里 完整 介绍 过 滤器 ， 不 过 在 例 $-3 的 代码 片段 
中 ， 你 应 该 能 大 致 帘 见 其 模式 。HTML 的 实体 库 并 不 足够 应 付 其 他 重音 字符 ， 但 由 于 
World Wide Web 的 趋势 是 正 以 Unicode 与 XML 取代 之 前 的 ASCII 与 HTML， 通 过 消 
除 字符 集 限 制 ， 会 有 不 同 的 方法 解决 这 个 问题 。 


例 $-3: iso8859-1-to-html 程序 片段 

#1 /bin/sh 

# 将 输入 流 里 内 含 符 合 ISO 8859-1 编码 且 范 围 在 128 . .255 的 字符 ， 
转换 为 HTML 对 等 的 ASCII。 

字符 0 .. 127 保留 作 为 一 般 的 ASCII。 


iso8859-1-to-html infile{s) >outfile 


~e 'S= =\&nbsp;=g' \ 
-e 'Ss=i=\&iexcl;=g’ \ 
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-e 'S=¢=\fCcent;=g' \ 
-e 'S=f=\&pound;=g’' \ 


-e 'S=U=\&uum]l;=g’: \ 
-e 's=Y=\&yacute;=g’' \ 
-e 's=pb=\&thorn;=g’ \ 
~e 'S=y=\&yuml;=g' \ 

对 S@ 持 


这 个 过 滤器 的 使 用 方式 如 下 : 


$ cat danish 显示 ISO 8859-1 编码 的 Danish 范例 文字 
Ben med aen 1]a i la af én halvo, 
og én stor®, langs den graske kyst. 


$ iso8859-1-to-html danish 将 文字 转换 为 HTML 实体 
Ben med aen 1& i 1a af én halvo, 
og én stor @, langs den graske kyst. 


5.3 ”文字 解 谜 好 帮手 


字谜 游戏 会 给 你 一 些 单词 的 线索 , 但 大 部 分 时 候 我 们 还 是 被 困 住 , 例如 ; 具有 10 个 字母 
的 单词 ， 以 ab 起 始 ， 且 第 七 个 字 不 是 x 就 是 z。 


用 awk 或 grep 进行 正则 表达 式 模式 匹配 是 必需 的 , 问题 是 ; 要 查找 什么 文件 呢 ? 使 用 
UNIX 拼 写字 典 是 不 错 的 选择 , 大 部 分 系统 的 /usr/dict/words 下 都 应 该 找 得 到 它 (还 
有 像 /usr/share/dict/words 与 /usr/share/1ib/Gict/words 也 是 可 能 出 现 的 地 
方 )。 这 是 一 个 简单 的 文本 文件 ， 每 行 一 个 单词 ， 以 字典 顺序 排列 。 我 们 可 以 轻松 地 从 
任何 的 文本 文件 集合 建立 另 一 个 具 相似 外 表 的 文件 ， 如 下 所 示 : 


cat filel(s) | tr A-Z a-z | tr -C ar-zN\ ‘'\n’ | sort -u 


第 二 个 管道 步骤 是 将 大 写字 母 转 换 成 小 写 , 第 三 个 则 是 以 换行 字符 取代 非 字 母 字 符 , 最 
后 为 结果 进行 排序 ， 并 去 除 重复 部 分 ， 让 每 行 都 为 唯一 值 。 在 第 三 步 里 , 视 搬 号 (') 为 
字母 ， 因为 它们 在 缩写 里 会 用 到 。 每 个 UNIX 系统 都 具有 可 以 此 方式 处 理 的 整 组 文字 一 
例如 格式 化 后 的 手册 页 在 /usr/man/cat*/* 与 /usr/local/man/cat*/* 内 。 我 们 的 
系统 里 就 有 一 个 提供 了 一 百 万 行 以 上 的 文本 , 并 且 产 生 了 44 000 个 左右 的 唯一 单词 。 在 
Internet 上 你 也 可 以 找到 很 多 种 语言 的 单词 列表 ( 注 4)。 





| 注 4: 可 在 ftp://ftp.ox.ac.uk/pub/wordlists/. ftp://qiclab.scn.rain.com/pub/wordlists/、 fip:// 
ibiblio.org/pub/docs/books/gutenberg/etext96/pgw*, 以 及 httip:/www.phreak.org/html/ 
wordlists.shtml 中 取得 。 也 可 以 直接 在 Internet 上 查找 “word list”， 一 样 能 找到 很 多 相 
关 信 息 。 
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我 们 假设 已 经 以 此 方式 建立 了 单词 列表 的 集合 , 并 将 它们 存储 在 一 个 标准 的 地 方 , 以便 
可 以 从 脚本 中 参考 到 它 。 我 们 编写 的 程序 如 例 5-4 所 示 。 


例 5-4: 文字 解 诗 的 好 帮手 


#! /bin/sh 


# 通过 一 堆 单词 列表 ， 进 行 类 似 egrep (1) 的 模式 匹配 


# word lists 


语法 : 


闪闪 入 


FILES=" 
/usr/dict/words 
/usr/share/dict/words 
/usr/share/lib/dict/words 


/usr/local/share/dict /words. 
/usr/local/share/dict/words. 
“~ /usr/local/share/dict/words. 
/usr/local/share/dict /words. 
/usr/local/share/dict/words. 
/usr/local/share/dict/words. 
/usr/local/share/dict/words. 
/usr/local/share/dict /words. 
/usr/local/share/dict/words. 
/usr/local/share/dict /words. 
/usr/local/share/dict/words. 
/usr/local/share/dict /words. 


pattern="$1" 


egrep -h 


puzzle-help egrep-pattern [word-list-files] 


biology 
chemistry 
general 
knuth 
latin 
manpages 
mathematics 
physics 
roget 
sciences 
UNIX 
webster 


-i "$pattern" SFILES 2> /dev/null | sort -u -f 


FILES 变 量 保 存 了 单词 列表 文件 的 内 建 列表 , 可 供 各 个 本 地 站 点 定制 。grep 的 -h 选 项 
指示 最 后 结果 不 要 显示 文件 名 , -i 选项 为 忽略 字母 大 小 写 , 我 们 还 用 了 2> /dev/null 
丢弃 标准 错误 信息 的 输出 ,这 是 用 于 单词 列表 文件 不 存在 或 是 在 它们 缺乏 必需 的 读 取 权 
限 的 情况 (这 种 重 定向 在 7.3.2 节 里 有 详尽 的 介绍 ) 。 最 后 的 sort 步骤 则 可 以 简化 最 后 
的 结果 ， 让 列表 里 没有 重复 单词 ， 并 忽略 字母 大 小 写 。 


现在 就 可 以 找到 我 们 要 寻找 的 单词 了 : 


$ puzzle-help '^b...,. Dj 


.8 | fmt 


bamboozled Bamboozler Danbob2les bdDenizens bdwheezing Belshazzar 
botanizing Brontozoum Bucholzite bulldozing 


能 找 出 每 行 有 6 个 辅音 字母 的 英文 单词 吗 ? 你 可 以 这 么 做 : 


$ puzzle-help '[^aeiouy] {6}' /usr/dict/words 


Knightsbridge 
mightn't 
oughtn't 
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若 你 觉得 y 不 算是 元 音 , 那 就 会 显示 更 多 的 单词 , 例如 encryption、klystron、porphyry、 
5yzy8y 都 是 。 


只 要 在 最 后 加 上 过 滤 步 骤 : egrep -i 人 [a-z]+s:， 我 们 可 以 迅速 排除 列表 里 有 缩写 
的 那些 ， 不 过 它们 出 现在 单词 列表 里 无 伤 大 雅 。 


5.4 ”单词 列表 


在 1983 年 到 1987 年 之 间 ， 贝 尔 实验 室 的 研究 人 员 Jon Bentley 在 《Communications of 
the ACM》 写 了 篇 有 趣 的 专栏 《Programming Pearls》。 专 栏 的 部 分 文章 集结 之 后 ， 作 
了 相当 程度 的 变动 ， 作 为 两 本 书 出 版 一 一 见 本 书后 参考 书目 列表 。 专 栏 中 有 篇 文章 是 
Bentley 下 的 战 帖 : 写 一 个 文字 处 理 程序 , 找 出 4 个 出 现 最 频繁 的 单词 , 并 在 输出 结果 的 
列表 上 加 入 它们 出 现 的 次 数 , 按照 次 数 由 大 至 小 排序 。 著 名 计算 机 科学 家 Donald Knuth 
与 David Hanson 分 别 回 应 了 两 个 聪明 有 趣 的 程序 ( 注 5)， 每 个 程序 都 是 花 上 数 小 时 编 
写 出 来 的 。Bentley 最 初 的 定义 并 不 精准 ,因而 Hanson 再 次 给 出 一 个 解释 ; 在 给 定 的 文 
本 文件 以 及 整数 上 下 , 必须 将 单词 显示 出 来 (还 要 加 上 它们 出 现 频率 ), 按照 这 些 单词 出 
现 的 频率 ， 从 出 现 最 多 的 次， 依次 往 下 排列 。 


针对 Bentley 的 第 一 篇 文章 ， 贝 尔 实验 室 的 研究 人 员 Doug Mcllroy 回头 检查 Knuth 的 程 
序 ， 提 供 一 个 6 个 步骤 UNIX 解决 方案 , 仅 需 几 分 钟 便 能 开发 完成 ， 且 第 一 次 就 运行 无 
误 。 此 外 ， 不 同 于 其 他 两 个 程序 的 地 方 是 : Mcllroy 的 程序 并 未 指定 限制 性 的 常量 ， 包 
括 单 词 长 度 、 唯 一 单词 的 数目 以 及 输入 文件 大 小 。 也 就 是 说 ， 它 的 想法 是 : 一 个 单词 的 
构建 完全 是 由 一 个 简单 的 模式 所 定义 , 这 在 他 程序 最 前 面 的 两 行 可 执行 语句 里 给 定 , 这 
使 得 单词 识别 算法 的 更 改变 得 容易 了 。 


McIlroy 的 程序 益 明 了 UNIX 工具 程序 的 处 理 方式 是 强大 的 : 将 复杂 的 问题 切 分 成 数 个 
较 简单 的 部 分 ， 简 单 到 你 已 经 知道 这 个 部 分 该 怎么 处 理 。 为 解决 单词 出 现 频率 问题 ， 
Mcllroy 将 纯 文本 文件 转换 为 单词 列表 ， 一 行 一 个 字 (由 tr 来 完成 此 工作 )、 将 单词 对 
应 到 单一 的 字母 大 小 写 (一 样 还 是 用 tr)、 单词 列表 的 排序 (用 sort ) 、 从 单词 列表 中 
去 除 重复 部 分 , 简化 为 仅 提供 唯一 的 单词 (用 uniq) 且 加 上 计数 、 再 将 单词 列表 以 计数 
的 数字 由 大 至 小 排序 ， 最 后 ， 显 示 单 词 列表 的 前 几 项 (这 里 是 使 用 sed， 不 过 head 也 
可 以 )。 





注 5; 《Programming Pearls: A Literate Program): A WEB program for common words, 
Comm.ACM 29(6),471-483， June(1986); 以 及 《Programming Pearls: Literate 
Programming: Printing Common Words》, 30(7), 594-599, July(1987)。Knuth 的 论文 也 
再 版 于 《Literate Programming》 书 中 ， 由 Stanford University Center for the Study of 
Language and Information 出 版 : 1992 年 , ISBN 0-937073-80-6 (平装 版 ) 与 0-937073- 
81-4 (精装 版 ) 。 E 
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最 后 形成 的 程序 应 该 值得 给 它 个 名 字 wf (word frequency， 单词 出 现 频率 之 意 )， 然后 
附 上 注释 标题 ， 打 包 成 Shell 脚本 。 我 们 也 扩充 了 McIlioy 原本 的 sed 命令 ， 让 输出 列 
表 长 度 参数 可 选 ， 并 现代 化 sort 选项 。 完 整 程序 可 见 例 5-5。 


例 5-5: 单词 出 现 频 率 过 滤器 

#! /bin/sh 

# 从 标准 输入 读 取 文本 流 ， 再 输出 出 现 频 率 最 高 的 前 n (默认 值 ，25) 个 单词 的 列表 
附 上 出 现 频率 的 计数 ， 按 照 这 个 计数 由 大 而 小 排列 ， 


# 
# 输出 到 标准 输出 。 
# 
# 语法 : 
# wf [nj 
tr -cs A-Za-z\'! ‘\n' | 将 非 字 母 字符 置换 成 换行 符号 
tr A-Z a-z | 所 有 大 写字 母 转 为 小 写 
sort | 由 小 而 大 排序 单词 
unig -c |] 去 除 重复 ， 并 显示 其 计数 
sort -kl,1lnr -k2 1 计数 由 大 而 小 排序 后 ， 再 按照 单词 由 小 而 大 排序 
sed ${1:-25}q 显示 前 n 行 (默认 为 25)， 见 第 3 章 


POSIX 的 tr 支持 ISO Standard C 的 所 有 转 义 序列 (escape sequences)。 较 旧 的 X/Open 
Portability Guide 规 格 则 仅 有 八进制 的 转 义 序列 , 且 原 始 的 tr 更 是 完全 不 支持 , 会 强制 
将 换行 符号 逐 字 写 出 ， 这 也 是 Mcllroy 原始 程序 里 被 批判 的 一 点 。 还 好 ， 我 们 测试 过 的 
所 有 系统 ， 其 tr 命令 现在 都 支持 POSIX 转 义 序列 。 


Shell 管 道 并 不 是 使 用 UNIX 工具 解决 此 问题 的 唯一 方式 : Bentley 提出 的 awk 程 序 实 作 
只 有 6 行 ， 在 他 早期 的 专栏 里 已 出 现 过 了 ( 注 6)， 内 容 上 大 致 与 Mcllroy 的 管道 之 前 4 
个 步 又 差不多 。 


Knuth 与 Hanson 讨论 了 他 们 的 程序 在 计算 上 的 复杂 度 ， 且 i 使 用 运行 时 探测 
(runtime profiling) 的 方式 研究 该 程序 的 数 种 变化 ， 以 找 出 最 快 的 一 种 。 


Mcllroy 的 复杂 度 是 容易 识别 的 。sort 之 外 的 所 有 步骤 ,执行 时 间 都 与 其 输入 数据 的 大 
小 呈 线 性 关系 ， 输 入 量 多 半 在 unig 步 又 之 后 会 明显 减少 。 因 此 ， 会 牵制 速度 的 其 实 是 
第 一 步 ， sort。 一 个 好 的 排序 算法 主要 是 看 它 的 比较 功能 ， 以 UNIX 的 sort 来 看 ， 排 
序 4 个 项 目的 时 间 是 与 4 logzn 成 正比 。 这 个 底 为 2 的 对 数值 会 很 小 : 假设 A 为 一 百 万 ， 
则 它 就 是 大 约 20。 因 此 ,在 实际 上 , 我 们 预期 wf 会 比 只 是 使 用 cat 复制 它 的 输入 流 还 
要 慢 些 。 


注 6: 《Programming Pearls: Associative Arrays), Comm. ACM 28(6), 570-576, June, (1985), 
这 是 一 篇 介绍 关联 式 数组 (associative arrays) 的 好 文章 (表格 是 通过 字符 串 来 索引 ,而 
不 是 整数 )， 这 是 大 多 数 脚本 语言 的 常见 功能 。 
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这 里 用 莎士比亚 的 作品 来 套用 这 个 脚本 试 试 ， 我们 用 最 著名 的 《哈姆雷特 》( 注 7)， 使 
用 pr 重新 格式 化 输出 的 结果 ， 以 每 行 4 列 显示 : 


$ wf 12 < hamlet | pr -c4 -t -w80 


1148 the 671 of 550 a 451 in 
970 and 635 i 514 my 419 it 
771 to 554 you 494 hamlet 407 that 


结果 大 致 和 一 般 英语 散文 的 预期 相同 , 不 过 更 好 玩 的 是 , 我 们 可 以 要 求 算出 去 除 掉 重 复 
字 后 有 多 少 单词 出 现在 此 剧 中 : 


$ WE 999999 < hamlet | wc -1 
4548 


再 看 看 最 不 常 出 现 的 字 有 哪些 ， 仅 显示 一 部 分 : 


$ wf 999999 < hamlet | tail -n 12 | pr -ck -t -w80 


1 yaw 1 yesterday 1 yielding 1 younger 
1 yawn 1 yesternight 1 yon 1 yourselves 
1 yeoman 1 yesty 1 yond 1 zone 


999999 这 个 参数 值 没 有 任何 意义 ,我 们 只 是 要 一 个 很 大 的 数字 而 已 ， 几 乎 可 以 确定 大 
于 单词 计数 的 数字 ， 再 辅 以 键盘 的 重复 功能 ， 使 得 这 个 参数 值 很 容易 输入 。 
我 们 还 可 以 要 求 算出 这 4548 个 单词 里 有 几 个 是 只 出 现 一 次 的 : 

$ wf 999999 < hamlet | grep -C '^ *1.!' 

2634 
在 grep 模 式 中 接 在 数字 1 后面 的 .表示 的 是 制 表 字 符 (Tab)。 这 个 结果 有 点 令 人 意外 ， 
对 于 现在 的 英语 散文 来 说 可 能 不 常 是 这 样 : 虽然 这 个 剧本 的 词汇 很 多 ， 但 接近 58 % 的 
字 都 只 出 现 过 一 次 ?| 然而 ， 经 常 出 现 的 几 个 核心 单词 则 相当 的 少 : 


$ wf 999999 < hamlet | awk '$1 >= 5' | wc -1 
740 


这 大 约 是 一 个 学 生 在 外 语 课程 里 一 学 期 学 到 的 单词 数 ， 或 是 学 龄 前 儿童 会 的 单词 数 。 


莎士比亚 没有 计算 机 帮 他 分 析 他 的 作品 ( 注 8), 但 我 们 可 以 料想 的 是 , 以 他 的 天 才 ， 写 
出 一 篇 让 大 众 都 可 理解 的 文章 是 轻而易举 的 。 


注 7: 你 可 以 在 http://www.gutengerg.net/ 找 到 该 剧 ，Project Gutenberg 是 很 不 错 的 文件 宝藏 
库 。 

注 8: 的 确 ， 他 的 作品 里 只 有 一 个 计算 机 的 起 源 字 : “computation”， 而 且 仅 在 两 个 剧本 
《Comedy of Errors》 与 《King Richard III》 里 各 出 现 一 次 。 而 “Arithmetic” 出 现 了 6 
次 ,“calculate” 出 现 了 2 次 ,“mathematics” 出 现 了 3 次 。 
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我 们 将 wf 套用 到 莎士比亚 的 各 出 剧 里 ,发 现 《 哈 姆 雷 特 》(Hamlet) 用 了 最 多 单词 (4548)， 
而 《难得 糊涂 》(Comedy of Errors) 则 是 最 少 的 。 莎 士 比 亚 全 集 里 一 一 含 剧本 与 十 四 
行 诗 ， Mn 说 明 你 需要 浸 泽 在 许多 戏剧 中 才能 
受 它 们 的 丰富 性 。 大 约 有 36% 的 单词 只 用 过 一 次 ,而 只 有 一 个 字 是 以 x 开头 的 ; 即 
Xanthippe， 这 是 出 现在 《 驯 悍 记 》 en。 of the Shrew) 里。 无疑， 莎士比亚 的 作 
品 不 但 为 字谜 游戏 提供 了 一 个 丰沛 的 来 源 ， 也 是 词汇 分 析 学 家 很 好 的 研究 题材 ! 


5.5 ”标签 列表 


tr 命令 可 用 于 取得 单词 列表 , 但 其 更 常见 的 用 法 是 : 将 一 组 字符 集 转换 成 另外 一 组 , 就 
像 我 们 在 前 一 节 例 5-5 介绍 的 那样 ， 这 是 一 个 值得 记 住 的 方便 好 用 的 UNIX 工具 。 这 也 
导致 了 一 个 问题 ,也 就 是 我 们 在 写 这 本 书 时 过 到 的 : 如 何 确保 整 篇 5 万 行 左 右 的 原稿 文 
件 具 有 一 致 的 标记 (markup) 呢 ? 例如 ,， 当 我 们 在 正文 中 提 到 一 条 命令 时 ， 可 将 命令 标 
记 为 <command>tr</command>， 但 是 在 其 他 地 方 ， 我 们 可 能 举例 说 明 你 输入 的 内 容 ， 
便 会 用 <literal>tr</literal> 这 样 的 标记 。 还 有 一 种 是 提 及 手册 页 参考 时 ， 标记 形 
式 为 <emphasis>tr</emphasis>(1)。 


例 5-6 里 的 taglist 程 序 就 是 这 类 问题 的 解决 方案 。 该 程序 找 出 写 在 同一 行 里 开始 / 结 
东 的 一 对 标签 (tag ) ， 然 后 再 输出 一 个 排序 列表 ， 该 列表 将 标签 的 使 用 与 输入 文件 相关 
联 。 此 外 ,对 于 多 次 的 方式 标记 相同 单词 的 地 方 ， 给 出 一 个 稍 头 标志 。 下 列 片 段 即 为 本 
章 内 容 应 用 该 程序 后 的 输出 : 


$ taglist ch05.xml 


2 cut command ch05 .xml 
1 cut emphasis ch05 .Xml <----~ 
2 unig command ch05 .Xml 
1 uniq emphasis ch05 .Xml <---- 
1 vfstab filename ch05 .xml 


列 出 标签 的 任务 想当然 是 很 复杂 的 , 且 以 最 传统 的 程序 语言 来 做 也 有 点 难 , 即使 像 Java 
和 C 这 样 拥有 大 规模 类 库 ， 并 且 即 便 从 Knuth 或 Hanson 处 理 单词 频率 问题 的 程序 开始 
也 一 样 。 但 使 用 UNIX 的 管道 ， 拱 配 你 已 熟悉 的 几 个 工具 ， 只 要 9 个 步 又 就 能 完成 


单词 出 现 频率 计算 程序 无 法 处 理 多 个 命名 的 文件 : 它 假设 仅 有 单一 流 。 不 过 这 也 不 是 太 
严重 的 限制 , 因为 我 们 可 以 很 简单 地 通过 cat 将 多 个 输入 文件 哈 给 它 。 不 过 在 这 里 , 我 
们 需要 有 文件 名 ,因为 知道 出 问题 但 不 晓得 问题 出 在 哪里 , 这 对 我 们 是 没有 好 处 的 。 所 
以 ,文件 名 成 了 taglist 的 单个 参数 ， 在 脚本 中 可 通过 $1 取得 。 
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我 们 通过 cat 将 输入 文件 给 管道 。 当然, 也 可 以 省 掉 这 个 步骤 ,只 需 从 $1 中 重 定 
向 下 一 步骤 的 输入 , 不 过 我 们 觉得 在 一 个 复杂 的 管道 里 将 “数据 生成 ”与 “数据 处 
理 ” 分 开 , 会 比较 有 条 理 , 而 这 么 做 在 程序 日 后 需要 在 另 一 个 步骤 插入 新 的 管道 时 ， 


也 会 容易 些 。 


| 
通过 sed 简化 Web URL 所 需 的 另 一 种 复杂 标记 ， 


。 | seQ -e 's#systemitem *role="url"#URL#g’' \ 
-e 's#/systemitem#/URL#' | ... 


这 是 将 标签 , 如 <systemitem role="URL"> 与 </systemitem>, 分 别 转 换 成 较 
简单 的 <URL> 与 </URL> 标签 。 


下 一 个 步 又 使 用 tr 将 空白 与 成 对 的 定 界 符 转 换 为 换行 符 (newline) ; 


tr O00 nnnnnnn' | ... 


至 此 , 输入 数据 包括 一 行 一 个 单词 (word) (或 是 空 行 )。 这 里 所 指 的 单词 , 不 是 真 
正 的 文本 就 是 SGML/XML 标 签 。 所 以 下 一 步骤 我 们 使 用 egrep，, 选 定 由 标签 括 起 
来 的 单词 : 

. | egrep ,>[^<>j+</， | ... 
这 个 正则 表达 式 会 匹配 由 标签 括 住 的 单词 。 布 尖 括 号 ， 接 着 至 少 一 个 非 尖 括号 字 
符 ， 跟 着 一 个 左 尖 括 号 ， 再 接 上 一 个 斜 杠 〈 也 就 是 结束 标签 ) 。 
至 此 , 输入 数据 包括 了 带 有 标签 的 行 。 第 一 个 awk 步骤 使 用 尖 括 号 作为 字段 分 隔 字 
符 ， 所 以 当 输 入 为 <literal>tr</1literal>， 即 切 分 为 4 栏 ， 依次 是 ; 一 个 空 字 
段 、literal、tr， 最 后 为 /literal。 文 件 名 通过 命令 行 传 给 awk， 其 中 -v 选 
项 把 awk 变量 FILE 设置 为 此 文件 名 。 该 变量 之 后 会 应 用 到 print 语 名 上， 以 输 
出 单词 、 标 签 与 文件 名 : 


. | awk -F!'[<>]’' -Vv FILE="$1" \ . 
'{ printf{("%-3ls\t%-l5s\t%s\n", $3, $2, FILE} }' | ... 


sort 步 又 是 以 单词 顺序 排列 每 一 行 : 

sh SOrE ,Ba 
unig 命 令 提供 初始 的 计数 字段 。 输出 为 记录 列表 ， 其 中 字段 依次 为 计数 、 单词、 标 
签 、 文 件 : 

.| uniq -c | ..， 
第 二 个 sort 是 将 输出 结果 以 单词 及 标签 的 顺序 排列 (第 2、3 字段 ) ; 

. | sort -k2,2 -k3,3 | ... ， 
最 后 步 又 是 使 用 一 个 小 小 的 awk 程序 , 过 滤 掉 连续 的 行 , 加 上 结尾 的 箭头 符号 , 当 
出 现 与 上 一 行 相同 单词 时 使 用 。 然 后 , 此 箭头 符号 可 清楚 地 指出 哪个 字 使 用 了 不 同 
的 标记 ， 也 就 是 作者 、 编 辑 或 出 版 社 相关 人 员 应 特别 检查 的 地 方 : 
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. | awk '{ 
print ($2 == Re) 2 ($0 * <---~-" ) : $0 
Last = $2 , 
于 


完整 的 程序 如 例 5-6 所 示 。 


例 5-6: 产生 SGML 标签 列表 

#! /bin/sh - 

4 读 取 命令 行 上 给 定 的 HTML/SGML/XML 文 件 ， 

找 出 包含 像 <tag>word</tag> 这 样 的 标记 ， 再 输出 到 标准 输出 ， 
该 标准 输出 将 以 制 表 字 符 (tab) 分 隔 字 段 ， 依 次 为 


计数 ”单词 ”标签 .文件 名 
按照 单词 与 标签 由 小 至 大 排序 。 


语法 : 
taglist xml-file 


着 间 间 草草 章 间 闪 


Cat SI | 


sed -e 's#systemitem *rOle="Url"#URL#g' ~e 's#/systemitem#/URL#' 


tr ' (){}[]' nnnnNnnvn' | 
egrep '>[^<>]+</' | 
awk -F'[<>]' -V FILE="$1" \ 


'{ printf("%-31s\t%-1l5s\t%s\n", $3, $2, FILE) }' 


sort | 
uniq -ce | 
sort -k2,2 -k3,3 | 
awk '{ 
print ($2 == Last) ? ($0 " <----") : 
Last = $2 


}" 


在 6.5 节 里 ,我 们 将 告诉 你 如 何 将 标签 列表 的 运算 应 用 到 多 文件 的 情况 上 。 
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本 章 说 明 的 是 解决 许多 文字 处 理 问题 的 一 些 方法 ,这 些 问题 里 没有 一 个 是 能 够 在 大 部 分 


程序 语言 中 简单 地 解决 的 。 本 章 主要 话题 如 下 : 


。 ”数据 标记 相当 有 价值 ， 但 又 不 能 太 复杂 。 具 有 唯一 性 的 单一 字符 ， 例 如 制 表 字符 


(Tab)、 冒 号 或 是 逗 点 通常 就 够 用 了 。 


。 ”将 单纯 的 UNIX 工具 与 管道 结合 使 用 ， 加 上 在 适合 的 文字 处 理 语言 中 的 简短 程 
序 一 一 例如 awk， 可 灵活 运用 数据 标记 来 传递 多 个 数据 片段 ， 使 其 通过 一 系列 的 


处 理 步 又 ， 产 生 有 用 的 报告 。 
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通过 保持 数据 标记 的 简单 ， 我 们 的 工具 所 产生 的 输出 ， 可 以 马上 变 成 新 工具 的 输 
入 ,就 像 单词 频率 次 数 过 滤器 (wf 那样 的 输出 分 析 ) 可 应 用 到 莎士比亚 的 作品 上 
一 样 。 

将 一 些小 型 标记 保留 在 输出 结果 里 ,之 后 还 能 再 进一步 处 理 这 样 的 数据 , 就 像 我 们 
把 简单 的 ASCII 办 公 室 名 录 转 换 成 网 页 形式 那样 , 绝 不 要 以 为 任何 一 种 电子 数据 的 
形式 就 会 是 最 后 的 结果 ; 现在 有 越 来 越 多 能 将 四 页 显示 成 一 面 的 程序 语言 ， 例 如 
PCL、PDF 以 及 PostScript， 它 们 可 以 保留 原始 标记 ， 再 进行 页 面 的 格式 化 。 字 处 
理 程 序 所 产生 的 文件 现在 也 缺乏 有 条 理 的 标记 方式 ,不 过 这 种 情况 即将 转变 ! 就 在 
写 这 本 书 的 同时 , 已 有 优秀 的 字 处 理 程序 厂商 提出 :“ 正 考虑 将 XML 表 达 式 作为 文 
件 的 存储 格式 ”。GNU 项 目的 gnumeric 电子 表格 程序 、Linux Documentation 
Project ( 注 9) 以 及 OpenOffice.org ( 注 10) 的 办 公 软 件 都 已 经 这 么 做 了 。 


以 定 界 符 分 隔 字段 的 行 , 这 是 一 种 方便 用 来 与 更 复杂 软件 交换 数据 的 格式 , 例如 电 
子 表格 与 数据 库 。 不 过 这 类 系统 通常 都 提供 某 种 形式 的 报表 产生 功能 , 可 轻易 地 将 
数据 提取 为 分 栏 的 流 , 之 后 便 能 利用 适当 的 程序 语言 所 写 的 过 滤器 , 更 进一步 地 处 
理 这 些 数据 。 例 如 产品 目录 与 名 录 发 布 都 是 这 种 方法 的 最 佳 应 用 。 





注 9: 


见 http://www.tldp.org/。 


注 10: 见 httip://www.openoffice.org/。 
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变量 对 于 正规 程序 而 言 很 重要 。 除 了 维护 有 用 的 值 作为 数据 ,变量 还 用 于 管理 程序 状态 。 
由 于 Shell 主 要 是 字符 串 处 理 语 言 ， 所 以 你 可 以 利用 Shell 变 量 对 字符 串 值 做 很 多 事 。 然 
而 ， 因 为 算术 运算 也 是 必要 的 ， 所 以 POSIX Shell 也 提供 利用 Shell 变量 执行 算术 运算 
的 机 制 。 


流程 控制 的 功能 造就 了 程序 语言 ;如 果 你 有 的 只 是 命令 语句 ,是 不 可 能 完成 任何 工作 的 。 
本 章 介 绍 了 用 来 测试 结果 、 根 据 这 些 结果 做 出 判断 以 及 加 入 循环 的 功能 。 


最 后 介绍 的 是 函数 : 它 可 以 将 相关 工作 的 语句 集中 在 同一 处 。 这么 一 来 就 可 以 在 脚本 里 
的 任何 位 置 ， 轻 松 执行 此 工作 。 


6.1 ”变量 与 算术 


Shell 变 量 如 同 传统 程序 语言 的 变量 一 样 , 是 用 来 保存 某 个 值 ; 下 到 你 需要 它们 为 止 。 我 
们 在 2.5.2 节 里 已 介绍 过 Shell 变 量 名 称 与 值 的 基本 概念 , 但 除 此 之 外 ,Shell 脚本 与 函数 
还 有 位 置 参数 (positional parameter) 的 功能 ， 传 统 的 说 法 应 该 是 “命令 行 参数 ”。 


Shell 脚 本 里 经 常 出 现 一 些 简单 的 算术 运算 ,例如 每 经 过 一 次 循环 , 变量 就 会 加 1。POSIX 
Shell 为 内 舱 (inline) 算术 提供 了 一 种 标记 法 ， 称 为 算术 展开 (arithmetic expansion ) 。 
Shell 会 对 $((...) ) 里 的 算术 表达 式 进 行 计算 ， 再 将 计算 后 的 结果 放 回 到 命令 的 文本 内 


Pr 
合 。 


6.1.1 ”变量 赋值 与 环境 
Shell 变 量 的 赋值 与 使 用 方式 已 在 2.5.2 节 中 提 过 ,但 这 个 小 节 将 解释 之 前 未 提 及 的 内 容 。 
机 全 加 
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有 两 个 相似 的 命令 提供 变量 的 管理 , 一 个 是 readonly, 它 可 以 使 变量 成 为 只 读 模 式 ; 而 
赋值 给 它们 是 被 禁止 的 。 在 Shell 程序 中 ， 这 是 创建 符号 常量 的 一 个 好 方法 : 


hours_per_day=24 seconds,_per_hour=3600 days_per_week=7 赋值 
readonly hours_per_day seconds_per_hour days_per_week 设 为 只 读 模 式 

















export, readonly 


export name[=word] ... 
export -p 
readonly name[=word] ... 





readonly -p 


用 途 
export 用 于 修改 或 打印 环境 变量 ，readonly 则 使 得 变量 不 得 修改 。 
主要 选项 
-p 
打印 命令 的 名 称 以 及 所 有 被 导出 (只 读 ) 变量 的 名 称 与 值 ; 这 种 方式 可 使 
得 Shell 重新 读 取 输出 以 便 重新 建立 环境 (只 读 设置 )。 
行为 模式 a ， 
使 用 -p 选 项 , 这 两 条 命令 部 会 分 别 地 打印 它们 的 名 称 以 及 被 导出 的 或 只 读 的 
所 有 变量 与 值 。 否 则 ， 会 把 适当 的 属性 应 用 到 指定 的 变量 。 
党 各 ; 
许多 商用 UNIX 系 统 里 的 /bin/sh, 仍 然 不 是 POSIX 兼 容 版 本 ;因此 ,export 
与 readonly 的 变量 赋值 形式 可 能 无 法 工作 。 要 实现 最 严格 的 可 移植 性 , 可 使 
用 : 


FOO=somevalue 
export FOO 





BAR=anothervalue 
readonly BAR 


较 常 见 的 命令 是 export, 其 用 法 是 将 变量 放 进 环境 (environment) 里 。 环境 是 一 个 名 
称 与 值 的 简单 列表 , 可 供 所 有 执行 中 的 程序 使 用 。 新 的 进程 会 从 其 父 进 程 继 承 环境 , 也 
可 以 在 建立 新 的 子 进程 之 前 修改 它 。export 命令 可 以 将 新 变量 添加 到 环境 中 :. 


PATH=$PATH: /usr/local/bin 更 新 PATH 
export PATH 导出 它 


最 初 的 Bourne Shell 会 要 求 你 使 用 一 个 两 步 难 的 进程 ;也 就 是 ,将 赋值 与 导出 (export) 
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或 只 读 (readonly) 的 操作 分 开 (如 前 所 示 )。POSIX 标 准 允 许 你 将 赋值 与 命令 的 操作 
结合 在 一 起 ， 
readonly hours_per_day=24 seconds_per_hour=3600 days_per_week=7 


export PATH=$PATH: /usr/local/bin 
export 命令 可 用 于 显示 当前 环境 : 
$ export -p 显示 当前 的 环境 
export CDPATH=":/home/tolstoy" 
export DISPLAY=":0.0’ 
export ENV="/home/tolstoy/.kshrce" 


export EXINIT="set ai sm" 
export FCEDIT="Vi 


变量 可 以 添加 到 程序 环境 中 , 但 是 对 Shell 下 接 下 来 的 命令 不 会 一 直 有 效 ， 将 该 (变量 ) 
赋值 ， 置 于 命令 名 称 与 参数 前 即 可 ， 


PATH=/bin:/usr/bin awk '...' filel file2 


这 个 PATH 值 的 改变 仅 针对 单个 awk 命 令 的 执行 。 任 何 接 下 来 的 命令 , 所 看 到 的 都 是 在 
它们 的 环境 中 PATH 的 当前 值 。 


export 命令 仅 将 变量 加 到 环境 中 ， 如 果 你 要 从 程序 的 环境 中 删除 变量 ， 则 要 用 env 命 
令 ，env 也 可 临时 地 改变 环境 变量 值 : 
env -i PATH=$PATH HOME=$HOME LC_ALL=C awk '...' filel file2 


-i 选项 是 用 来 初始 化 (initializes) 环境 变量 的 ， 也 就 是 丢弃 任何 的 继承 值 ， 仅 传递 命 
令 行 上 指定 的 变量 给 程序 使 用 。 


unset 命令 从 执行 中 的 Shell 中 删除 变量 与 函数 。 默 认 情 况 下 ， 它 会 解除 变量 设置 ， 也 
可 以 加 上 -v 来 完成 : 


unset full name 删除 full_name 变量 
unset -v first middle last 删除 其 他 变量 

使 用 unset -f 删除 函数 : 
who_is on {) { 定义 


亏 数 
who | awk 'f print $1 }' | sort -u 产生 排序 后 的 用 户 列表 
} 


ne -f who_is_on 删除 函数 


Shell 早 期 版 本 没有 函数 功能 或 unset 命令; POSIX 加 入 了 -f 选 项 , 以 执行 删除 函数 的 
操作 ， 之 后 还 加 入 -v 选项 ， 以 便 与 -f 相对 应 。 
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env 


env [ -i ] [ var=value ... ] [ command name [ arguments ... ] ] 
用 途 
当 command_name 被 env 执行 时 ,可 针对 被 commana_pname 继 承 而 来 的 环境 
有 更 细致 的 控制 。 
主要 选项 
-i 
忽略 继承 的 环境 ， 仅 使 用 命令 行 上 所 给 定 的 变量 与 值 。 
行为 
未 提供 command_name 时 ， 显 示 环 境 中 所 有 变量 的 名 称 与 其 值 。 否 则 ， 在 命 
令 行 上 使 用 变量 赋值 ， 在 引用 command_name 之 前 ,以 修改 继承 的 环境 。 加 
上 -i 选项，env 会 完全 和 忽略 继承 的 环境 ， 且 只 使 用 所 提供 的 变量 与 值 。 
拿 各 
打印 时 ，env 不 会 正确 地 为 环境 变量 值 加 上 引号 ， 以 供 重新 输入 到 Shell 中 。 
如 果 需 要 此 功能 ， 可 使 用 export -p。 














unset 
说 法 
unset [ -Vv ] variable ... 
unset -f function ... 
用 途 
从 当前 Shell 删除 变量 与 函数 。 
主要 选项 
—-f 
解除 (删除) 指定 的 函数 。 
-Vv 
解除 (删除) 指定 的 变量 。 没 有 任何 选项 时 ， 这 是 默认 行为 模式 。 
行为 模式 
如 果 没 有 提供 选项 ,， 则 参数 将 视 为 变量 名 称 ， 并 告知 变量 已 删除 。 使 用 -VvV 选 
项 也 会 发 生 相 同 的 行为 。 如 使 用 - 工 选项 ,参数 则 被 视 为 函数 名 称 ， 并 删除 函 
数 。 





志 
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注意 ; myvar= 赋 值 并 不 会 将 myvar 删 除 , 只 不 过 是 将 其 设 为 null 字 符 串 。 相 对 地 : unset myvar 
则 会 完全 删除 它 。 这 一 差异 在 于 “是 变量 设置 ”以 及 “是 变量 设置 , 但 非 null” 展 开 ， 这 
部 分 将 在 下 一 个 小 节 说 明 。 


6.1.2 参数 展开 


参数 展开 (parameter expansion) 是 Shell 提供 变量 值 在 程序 中 使 用 的 过 程 ， 例 如 ， 作 
为 给 新 变量 的 值 ， 或 是 作为 命令 行 的 部 分 或 全 部 参数 。 最 简单 的 形式 如 下 所 示 : 


reminder="Time to go to the dentist!" 将 值 存储 在 reminder 中 
sleep 120 等 待 两 分 钟 
echo S$reminder 显示 信息 


在 Shell 下 ， 有 更 复杂 的 形式 可 用 于 更 特殊 的 情况 。 这 些 形式 都 是 将 变量 名 称 括 在 花 括 
号 里 (${variable}), 然后 再 增加 额外 的 语法 以 告诉 Shell 该 做 些 什 么 。 花 括号 本 身 也 
是 很 好 用 的 , 当 你 需要 在 变量 名 称 之 后 马上 跟着 一 个 可 能 会 解释 为 名 称 的 一 部 分 的 字符 
时 ， 它 就 派 得 上 用 场 了 ， 


reminder="Time to go to the dentist!" 将 值 存储 在 reminder 中 
sleep 120 等 待 两 小 时 


echo _${reminder}_ 加 下 划 线 符号 强调 显示 的 信息 


警告 : 默认 情况 下 ， 未 定义 的 变量 会 展开 为 null ( 空 的 ) 字符 串 。 程 序 随便 乱 写 ， 就 可 能 会 导致 
灾难 发 生 : 


rm -fr /$MYPROGRAM 如 未 设置 MYPROGRAM， 就 会 有 大 灾难 发 生 了 ! 
所 以 ， 写 程序 要 一 直 非 常 小 心 ! 


6.1.2.1 展开 运算 符 

第 一 组 字符 串 处 理 运 算 符 用 来 测试 变量 的 存在 状态 , 且 为 在 某 种 情况 下 人 允许 默认 值 的 替 

换 。 如 表 6-1 所 示 。 

表 6-1: 替换 运算 符 

运算 符 替换 和 ? 

$ {varname: -word)} 如 果 varname 存 在 且 非 null， 则 返回 其 值 ， 否 则 ， 返 回 word。 
用 途 : 如 果 变 量 未 定义 ， 则 返回 默认 值 。 
范例 ; 如 果 count 未 定义 ， 则 $ {count :-0} 的 值 为 0。 
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表 6-1， 蔡 换 运算 符 〈 续 ) 

送 算 畦 * 和 荐 换 和 ee 

$ {varname: =word} 如 果 varname 存 在 且 不 是 null， 则 返回 它 的 值 ， 否则 ,设置 它 为 
word， 并 返回 其 值 。 
用 途 : 如 果 变 量 未 定义 ， 则 设置 变量 为 默认 值 。 
范例 : 如 果 count 未 被 定义 , 则 ${count :=0} 设 置 count 为 0。 

$s{varname:?message} 如 果 varname 存 在 且 非 null, 则 返回 它 的 值 ;否则 ,显示 varname: 
messa9e, 并 退出 当前 的 命令 或 脚本 。 省 略 message 会 出 现 默认 
信息 parameter null or not _ set。 注意， 在 交互 式 Shell 下 
不 需要 退出 (在 不 同 的 Shell 间 会 有 不 同 的 行为 ， 用 户 需 自行 注 
意 ) 。 
用 途 : 为 了 捕捉 由 于 变量 未 定义 所 导致 的 错误 。 
范例 ; ${tcount;?"undefined!"}) 将 显示 count: undefined!， 
. 且 如 果 count 未 定义 ， 则 退出 。 

$s {varname: t+word} 如 果 varname 存在 且 非 null， 则 返回 word， 否 则 ， 返 回 null。 
用 途 : 为 测试 变量 的 存在 。 
范例 ;如 果 count 已 定义 , 则 ${count:+1} 返 回 1 (也 就 是 “ 真 ”)。 





表 6-1 里 每 个 运算 符 内 的 冒号 (: ) 都 是 可 选 的 。 如 果 省 略 冒 号 , 则 将 每 个 定义 中 的 “ 存 
在 且 非 null” 部 分 改 为 “存在 "， 也 就 是 说 ， 运 算 符 仅 用 于 测试 变量 是 否 存在 。 


表 6-1 中 的 运算 符 已 在 Bourne Shell 下 使 用 了 20 多 年 。 POSIX 标 准 化 额外 的 运算 符 , 用 
来 执行 模式 匹配 与 删除 变量 值 里 的 文本 。 新 的 模式 匹配 运算 符 , 通常 是 用 来 切 分 路 径 名 
称 的 组 成 部 分 , 例如 目录 前 组 与 文件 名 后 组。 除了 列 出 Shell 的 模式 匹配 运算 符 之 外 , 表 
6-2 也 展现 了 这 些 运算 符 的 运行 范例 。 在 这 些 例子 里 ， 我 们 都 假设 变量 patnh 的 值 为 


/home/tolstoy/mem/long.file.name, 


注意 ， 表 6-2 中 运算 符 使 用 的 模式 , 以 及 Shell 里 其 他 地 方 , 例如 case 语 名 里 所 使 用 的 模式 ， 都 
为 Shell“ 通 配 字符 (wildcard)” 模 式 。 这些 在 7.5 节 里 有 详细 的 说 明 。 我 们 希望 你 能 通过 
每 天 使 用 Shell 来 熟悉 这 些 基 本 功能 。 





表 6-2: 模式 匹配 运算 符 


$ {variabletpattern} 如 果 模 式 匹 配 于 变量 值 的 开头 处 , 则 删除 匹配 的 最 短 部 分 ,并 
返回 剩 下 的 部 分 。 
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表 6-2: 模式 匹配 运算 符 ( 续 ) 

这 外 和 罕 , 

例 : $ {path#/*/} 结果 : tolstoy/mem/long.file.name 

例 ，$ {variable##pattern} ”如 果 模 式 匹配 于 变量 值 的 开头 处 ， 则 删除 匹配 的 最 长 部 
分 ， 并 返回 剩 下 的 部 分 。 

例 : ${path##/*/} 结果 : long.file.name 

例 ; $ {variable%pattern} 如 果 模 式 匹 配 于 变量 值 的 结尾 处 ， 则 删除 匹配 的 最 短 部 
分 ， 并 返回 剩 下 的 部 分 。 

例 : $ {paths%.*} 结果 : ome /toldtoy mend Ae 

例 : ${variable%%pattern} ”如 果 模 式 匹配 于 变量 值 的 结尾 处 ， 则 删除 匹配 的 最 长 部 
分 ， 并 运 回 剩 下 的 部 分 。 

例 ;$ {path%g%.*} 结果 : /home/tolstoy/mem/long 





这 些 看 起 来 很 难 记 , 我 们 提供 一 个 帮助 记忆 的 好 方法 : # 匹配 的 是 前 面 ， 因 为 数字 正 负 
号 总 是 置 于 数字 之 前 ，% 匹配 的 是 后 面 ， 因 为 百分比 符号 总 是 跟 在 数字 的 后 面 。 另 外 一 
种 帮助 记忆 的 方式 则 是 看 传统 的 键盘 配置 《当然 ， 指 的 是 在 美式 键盘 上 ) : # 位 置 靠 左 、 
# 靠 右 。 


在 这 里 用 到 的 两 种 模式 分 别 是 : /*/，, 匹配 任何 位 于 两 个 斜 枉 之 间 的 元 素 ; .*， 匹 配点 
号 之 后 接着 的 任何 元 素 。 
最 后 , POSIX 标 准 化 字符 串 长 度 运算 符 ; $ {Hvariable]} 返 回 $variable 信 里 的 字符 长 
度 : 

$ x=supercalifragilisticexpialidocious 著名 的 特殊 单词 


$ echo There are ${#x} characters in $x | 
There are 34 characters in supercalifragilisticexpialidocious 


6.1.2.2 位置 参数 


所 谓 位 置 参 数 (positional parameter), 指 的 是 Shell 脚 本 的 命令 行 参数 (argument) ; 同 
时 也 表示 在 Shell 函数 内 的 函数 参数 。 它 们 的 名 称 是 以 单个 的 整数 来 命名 。 出 于 历史 的 
原因 ， 当 这 个 整数 大 于 9 了 时， 就 应 该 以 花 括 号 ({1) 插 起 来 : 


echo first arg is $1 
echo tenth arg is ${10]} 


你 也 可 以 将 前 一 节 介 绍 的 值 测 试 与 模式 匹配 运算 符 ， 应 用 到 位 置 参数 ; 
filename=${1:-/dev/tty} 如 果 给 定 参数 则 使 用 它 ， 如 无 参数 则 使 用 /dev/tty 
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下 面 介 绍 的 特殊 “变量 ”提供 了 对 传递 的 参数 的 总 数 的 访问 , 以 及 一 次 对 所 有 参数 的 访 
间 : 


$# 
提供 传递 到 Shell 脚 本 或 函数 的 参数 总 数 。 当 你 是 为 了 处 理 选项 和 参数 而 建立 循环 
时 ， 它 会 很 有 用 (在 稍 后 的 6.4 节 里 会 说 明 )。 举 例如 下 : 
while [ $# != 0 ] 以 shift 逐渐 减少 $#， 循 环 将 会 终止 
do 
case $1 in 
soe 处 理 第 一 个 参数 
esac 
shift 移 开 第 一 个 参数 〈 见 稍 后 内 文 说 明 ) 
done 
$*, $@ 
一 次 表示 所 有 的 命令 行 参数 。 这 两 个 参数 可 用 来 把 命令 行 参数 传递 给 脚本 或 函数 所 
执行 的 程序 。 
0 


将 所 有 命令 行 参数 视 为 单个 字符 串 。 等 同 于 "$1 $2 ..."。$IFS 的 第 一 个 字符 用 

来 作为 分 隔 字 符 ， 以 分 隔 不 同 的 值 来 建立 字符 串 。 举 例如 下 : 

printf "The arguments Were %s\n" "S$*" 
"gS@" 

将 所 有 命令 行 参数 视 为 单独 的 个 体 , 也 就 是 单独 字符 串 。 等 同 于 "$1" "$2" ...。 

这 是 将 参数 传递 给 其 他 程序 的 最 佳 方式 , 因为 它 会 保留 所 有 内 人 嵌 在 每 个 参数 里 的 任 

何 空白 。 举 例如 下 : 

lpr "$@" 显示 每 一 个 文件 
set 命令 可 以 做 的 事 很 多 ( 详 见 7.9.1 节 说 明 )。 调 用 此 命令 而 未 给 予 任 何 选 项 , 则 它 会 
设置 位 置 参数 的 值 ， 并 将 之 前 存在 的 任何 值 丢 弃 : 

set -- hi there how do you do -- 会 结束 选项 部 分 ， 自 hi 开始 新 的 参数 
shift 命 令 是 用 来 “ 截 去 (lops off)" 来 自 列表 的 位 置 参数 , 由 左 开始 ,一 旦 执行 shift， 
$1 的 初始 值 会 永远 消失 ,取而代之 的 是 $2 的 旧 值 。$2 的 值 ， 变 成 $3 的 旧 值 ， 以 此 类 
推 。 $# 值 则 会 逐次 减 1。shift 也 可 使 用 一 个 可 选 的 参数 , 也 就 是 要 位 移 的 参数 的 计数 。 
单纯 的 shift 等 同 于 shift 1。 以 下 范例 将 这 些 操 作 串 联 在 一 起 ， 并 添加 了 注释 : 


$ set -- hello "hi there" greetings 设置 新 的 位 置 参数 
$ echo there are $# total arguments 显示 计数 值 

there are 3 total arguments 

$ for i in $* 循环 处 理 每 一 个 参数 
> do echo i is $1 

> done 
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is hello 

is hi 

is there 

is greetings 

for i in $@ 

do echo i is $1 
done 

is hello 

is hi 

is there 

is greetings 

for i in "gg$*" 

do echo 1 ies $i 
done 

is hello hi there greetings 
for i in "$@" 

do echo 1 ie $i 
done 

is hello 

is hi there 

is greetings 
ghift , 
echo there are now $# argumente 


here are now 2 arguments 


for i in "S$@" 

do echo i ie $i 
done 

is hi there 

is greetings 


6.1.2.3 ”特殊 变量 


除了 我 们 看 过 的 特殊 变量 (例如 $# 及 $*) 之 外 ,Shell 还 有 很 多 额外 的 内 置 变量 。 有 一 
些 也 具有 单一 字符 、 非 文字 或 数字 字母 的 名 称 ， 其 他 则 是 全 由 大 写字 母 组 成 的 名 称 。 


表 6-3 列 出 内 置 于 Shell 内 的 变量 , 以 及 影响 其 行为 的 变量 。 所 有 Bourne 风格 的 Shell 提 
供 的 变量 都 比 这 里 所 列 的 多 很 多 , 它们 会 影响 交互 模式 下 的 使 用 , 也 可 以 在 处 理 Shell 程 
序 时 用 于 其 他 的 用 途 。 不 过 下 面 要 说 明 的 这 些 ， 是 在 写 Shell 程序 了 时， 可 以 完全 倚赖 实 
现 可 移植 性 脚本 编程 的 变量 。 


表 6-3: 
变量 


-〈 连 字号 ) 在 引用 时 给 予 Shell 的 选项 。 


POSIX 内 置 的 Shell 变量 
| 意义 
目前 进程 的 参数 个 数 。 


注意 ， 内 修 的 空白 已 消失 


在 没有 双 引 号 的 情况 下 ，$* 与 $8 是 一 样 的 


加 了 双 引 号 ，$* 表示 一 个 字符 串 


加 了 双 引 号 ，$@ 保留 真正 的 参数 值 


截 去 第 一 个 参数 
证 明 它 已 消失 


传递 给 当前 进程 的 命令 行 参数 。 置 于 双 引 号 内 ， 会 展开 为 个 别 的 参数 。 
当前 进程 的 命令 行 参数 。 置 于 双 引 号 内 ， 则 展开 为 一 单独 参数 。 
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表 6-3: POSIX 内 置 的 Shell 变量 ( 续 ) 


变量 意义 

2 前 一 命令 的 退出 状态 。 

$ Shell 进程 的 进程 编号 (process ID ) 。 

0 ( 零 ) Shell 程序 的 名 称 。 

8 最 近 一 个 后 台 命 令 的 进程 编号 。 以 此 方式 存储 进程 编号 , 可 通过 wait 命 令 
以 供 稍 后 使 用 。 

ENV 一 旦 引用 ， 则 仅 用 于 交互 式 Shell 中 ，$ENV 的 值 是 可 展开 的 参数 。 结 果 应 
为 要 读 取 和 在 启动 时 要 执行 的 一 个 文件 的 完整 路 径 名 称 。 这 是 一 个 XSI 必 
需 的 变量 。 

HOME 根 (登录 ) 目录 。 

IFS 内 部 的 字段 分 隔 器 例如 , 作为 单词 分 隔 器 的 字符 列表 。 一 般 设 为 空格 、 制 
表 符 (Tab) ， 以 及 换行 (newline ) 。 

LANG 当前 locale 的 默认 和 名称， 其 他 的 LC_* 变量 会 覆盖 其 值 。 

LC_ALL 当前 locale 的 名 称 ， 会 覆盖 LANG 与 其 他 LC_* 变量 。 

LC_COLLATE ”用 来 排序 字符 的 当前 locale 名 称 。 

LC_CTYPE 在 模式 匹配 期 间 ， 用 来 确定 字符 类 别 的 当前 locale 的 名 称 。 


LC_MESSAGES 


输出 信息 的 当前 语言 的 名 称 。 


LINENO 刚 执行 过 的 行 在 脚本 或 函数 内 的 行 编号 。 

NLSPATH 在 $SLC_MESSAGES (XSI) 所 给 定 的 信息 语言 里 ， 信 息 目 录 的 位 置 。 
PATH 命令 的 查找 路 径 。 

PPID 父 进程 的 进程 编号 。 

PS1 主要 的 命令 提示 字符 串 。 软 认为 "$"。 

PS2 行 继续 的 提示 字符 串 。 默 认为 "> " 

ps4 ”以 set -x 设置 的 执行 跟踪 的 提示 字符 申 。 默 认为 "+ "。 

PWD 当前 工作 目录 。 








特殊 变量 $$ 可 在 编写 脚本 时 用 来 建立 具有 唯一 性 的 文件 名 (多 半 是 临时 的 ), 这 是 根据 


Shell 的 进程 编号 建立 文件 名 。 不 过 


， 系 统 里 还 有 一 个 mktemp 命令 也 能 做 同样 的 事 ， 这 


些 都 会 在 第 10 章 中 探讨 。 


6.1.3 ”算术 展开 


Shell 的 算术 运算 符 与 C 语 言 里 的 差不多 , 优先 级 与 顺序 也 相同 。 表 6-4 列 出 支持 的 算术 
运算 符 , 优先 级 由 最 高 排列 至 最 低 。 虽 有 些 是 (或 包含 ) 特殊 字符 ,不 过 它们 不 需 以 反 
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斜 杠 转 义 ， 因 为 它们 都 置 于 $((.-.)) 语 法 中 。 这 一 语法 如 同 双 引号 功能 ， 除 了 内 稚 双 
引号 无 须 转 义 ， 见 7.7 节 。 i 


表 6-4: 算术 运算 数 , ; 
运算 符 2 省 关 g0 eco 全 这 处 源 让 


++ -~ 增加 及 减少 ， 可 前 置 也 可 放 在 结尾 由 左 至 右 
We 全 一 元 (unary) 的 正 号 与 负 号 ， 逻辑 “由 右 至 左 
与 位 的 (bitwise) 取 反 
* /% 乘法 、 除 法 ， 与 余数 由 左 至 右 
+ =- 加 法 与 减法 由 左 至 右 
<< >> 向 左 位 移 、 向 右 位 移 由 左 至 右 
< <= > >= ”比较 由 左 至 右 
se i 相等 与 不 等 由 左 至 右 
& 位 的 AND 由 左 至 右 
位 的 Exclusive OR 由 左 至 右 
| 位 的 OR 由 左 至 右 
&& 0 逻辑 的 AND (简捷 方式 ) 由 左 至 右 
1 逻辑 的 OR (简捷 方式 ) 由 左 至 右 
5 条 件 表达 式 由 有 至 左 
= += -= *= /= %= &= ^ <<= >>= |= 赋值 运算 符 由 右 至 左 


可 利用 圆 括号 将 子 表达 式 语 句 块 括 起 来 。 就 像 在 C 里 一 样 : 关系 运算 符 (<、<=、>、>=、 
== 与 !=) 产生 数字 结果 中 ，1 表示 为 真 ，0 表示 假 。 


例如 : $((3 > 2) ) 的 值 为 1 $(( (3 > 2) 11 (4,<= 1) )) 也 为 1， 因 为 这 两 个 子 
表达 式 里 至 少 有 一 个 为 真 。 


对 逻辑 的 AND 与 OR 运算 符 而 言 ， 任 何 的 非 0 值 函数 都 为 真 : 


$ echo $((3 && 4)) 3 与 4 都 为 “ 真 ” 
1 5 Wn 


非 0 值 都 为 真 的 用 法 ， 可 用 于 所 有 从 C 衍生 而 来 的 语言 ， 例 如 C++、Java 以 及 awk。 


如 果 你 对 C、C++ 或 Java 已 有 所 了 解 ， si 4 所 列 出 的 运算 符 。 如 果 不 
熟悉 ， 这 里 我 们 就 来 进行 一 些 简单 的 说 明 。 


常规 运算 符 的 赋值 形式 ,对 于 较为 传统 的 更 新 变量 方式 而 言 , 是 一 种 方便 的 缩写 。 举 例 
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来 说 ， 在 许多 语言 中 ， 你 可 能 会 写 x = x + 2， 以 为 x 增 加 2。 但 += 运算 符 可 以 让 你 
使 用 更 简洁 的 写法 : $((x += 2)) ， 指 的 是 为 x 增 加 2， 且 将 得 到 的 结果 存储 到 x。 


由 于 加 1 或 减 1 的 使 用 相当 频繁 , 因此 ++ 与 -- 运 算 符 提供 缩写 形式 完成 它们 。 也 就 是 : 
++ 是 增加 1, 而 -- 是 减 1。 这些 都 属于 单元 运算 符 (unary operator), 现在 就 来 看 看 它 
们 的 作用 : 

$ 4=5 

$ echo $((i++)) $4 | 

5 6 


S echo $((++i)) $i 
J 


发 生 什么 情况 呢 ? 这 两 种 情况 ， 都 是 i 的 值 加 1。 但 是 ， 运 算 符 返 回 的 值 会 根据 它 与 变 
量 的 相对 位 置 而 定 。 后 绥 式 (postfix) 的 运算 符 (运算 符 出 现在 变量 之 后 ), 在 结果 产生 
后 ,将 旧 值 返回 给 变量 , 再 执行 变量 加 1 的 操作 。 相 对 地 ， 前 组 式 (prefix) 中 ,运算 数 
则 是 放 在 变量 的 前 面 , 先 将 变量 加 1, 再 返回 新 值 给 变量 。- - 的 工作 方式 和 ++ 类 似 , 只 
不 过 它 的 操作 是 将 变量 减 1， 而 不 是 加 1。 





注意 : ++ 与 -- 运算 符 是 可 选 的 ; 实际 上 ， 不 必 非 支持 它们 ， 但 bash 与 ksh93 都 支持 此 功能 。 
标准 规范 里 ， 允 许 实现 时 可 支持 额外 运算 符 。ksh93 的 所 有 版 本 都 支持 C 的 逗 点 运算 符 ， 
最 近 的 版 本 还 可 以 使 用 ** 支持 取 需 功能 ，pash 也 支持 这 两 者 。 
标准 规范 中 仪 描述 使 用 常数 值 的 算术 。 当 参数 计算 先 完成 了 时 -例如 $i, 算术 计算 程序 就 只 


看 到 常数 值 。 实 际 上 ， 所 有 支持 $((...)) 的 Shell, 都 可 以 让 用 户 在 提供 变量 名 称 时 , 无 
须 前 置 $ 符 号 。 | . 





根据 POSIX 规 定 , 算术 运算 使 用 的 是 C 的 带 有 正 负 号 的 长 整数 。ksh93 支 持 浮 点 运算 ， 
不 过 如 果 你 对 程序 的 可 移植 性 有 所 要 求 ， 建 议 不 要 依赖 它们 。 


6.2 ”退出 状态 

每 一 条 命令 , 不 管 是 内 置 的 、Shell 函数 , 还 是 外 部 的 ， 当 它 退 出 时 , 都 会 返回 一 个 小 的 
整数 值 给 引用 它 的 程序 ,这 就 是 大 家 所 熟知 的 程序 的 退出 状态 (exit statu) 。 在 Shell 下 
执 进 程序 时 ， 有 许多 方式 可 取 用 程序 的 退出 状态 。 


6.2.1 退出 状态 值 
以 惯例 来 说 , 退出 状态 为 0 表示 “成 功 ”， 也 就 是 , 程序 执行 完成 且 未 遭遇 任何 问题 。 其 
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他 任何 的 退出 状态 都 为 失败 〈 注 1) (我 们 稍 后 将 介绍 如 何 使 用 退出 状态 )。 内 置 变量 ? 
(以 $? 访 问 它 ) 包括 了 Shell 最 近 一 次 所 执行 的 一 个 程序 的 退出 状态 。 


例如 ， 当 你 输入 1s 时 ，Shell 找到 1s 并 执行 该 程序 。 当 1s 结束 时 ，Shell 会 恢复 1s 的 
退出 状态 。 请 见 下 面 的 例子 : 


$ 18 -1 /dev/nul1 ls 一 个 存在 的 文件 
Crw-rw-rw- 1 root root 1, 3 Aug 30 2001 /dev/null 1s 的 输出 

$ echo $? 显示 退出 状态 

0 退出 状态 为 成 功 

S$ 18 foo 现在 1s 一 个 不 存在 的 文件 
ls: foo: No such file or directory ls 的 错误 信息 

$ echo $7? 显示 退出 状态 

1 | ” 退出 状态 指出 : 失败 


POSIX 标准 定义 了 退出 状态 及 其 含义 ， 见 表 6-5。 
表 6-5: POSIX 的 结束 状态 


什 意义 

0 命令 成 功 地 退出 。 ; 
>0 在 重 定向 或 单词 展开 期 间 (~、 变 量 、 命 令 、 算 术 展 开 ， 以 及 单词 切割 ) 失败。 
1-125 ”命令 不 成 功 地 退出 。 特 定 的 退出 值 的 含义 ， 是 由 各 个 单独 的 命令 定义 的 。 

126 命令 找到 了 ， 但 文件 无 法 执行 。 . | 

127 命令 找 不 到 。 


> 128 命令 因 收 到 信号 而 死亡 。 





令 人 好 奇 的 是 ，POSIX 留 下 退出 状态 128 未 定义 , 仅 要 求 它 表示 菏 种 失败 。 因 为 只 有 低 
位 (low-order) 的 8 个 位 会 返回 给 父 进程 ， 所 以 大 于 255 的 退出 状态 都 会 替换 成 该 值 除 
以 256 之 后 的 余数 。 


你 的 Shell 脚 本 可 以 使 用 exit 命 令 传递 一 个 退出 值 给 它 的 调用 者 。 只 要 将 一 个 数字 传递 
给 它 , 作为 第 一 个 参数 即 可 。 脚 本 会 立即 退出 , 并 且 调 用 者 会 收 到 该 数字 且 作 为 脚本 的 
退出 值 


exit 42 ” 给 最 后 一 个 问题 返回 答案 


注 1: C 与 C+t+ 的 程序 员 请 注意 ， 这 个 部 分 与 你 所 使 用 的 程序 完全 相反 ， 请 花 点 时 间 适 应 。 
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exit 


语法 
exit [ exit-value ] 
用 途 
目的 是 从 Shell 肢 本 返回 一 个 退出 状态 给 脚本 的 调用 者 。 
主要 选项 
无 
存 为 柑 式 
如 果 没 有 提供 ， 则 以 最 后 一 个 执行 命令 的 退出 状态 作为 默认 的 退出 状态 。 如 
果 这 就 是 你 要 的 ， 则 最 好 明白 地 在 Shell 脚本 里 这 么 写 : 


exit $2? 





6.2.2 if-elif-else-fi 语 句 
使 用 程序 的 退出 状态 ， 最 简单 的 方式 就 是 使 用 if 语句 。 一 般 语法 如 下 ， 


if pipeline 
[ pipeline ... ] 
上 hen 
statements-if-true-1 
[ elif pipeline 
[ pipeline ... ] 
then 
statements-if-true-2 
A 
[ else 
statements-if-all-else-fails | 
下 
( 方 括号 表示 的 是 可 选 的 部 分 ,并 非 逐 字 输 入 。) Shell 的 语法 是 松散 地 建立 在 Algol 68 
之 上 ， 而 后 者 是 V7 Shell 的 作者 Steven Bourne 相当 推崇 的 。Algol 68 最 有 名 的 地 方 是 
在 于 : 使 用 以 方 括号 作为 开始 与 结束 的 关键 字 将 语句 组 织 起 来 , 而 不 是 使 用 Algol 60 与 
Pascal 所 使 用 的 begin 与 end 定 界 符 , 也 不 是 使 用 因 C 而 普及 化 并 且 也 常 出 现在 其 他 可 


程序 化 的 UNIX 工具 里 使 用 的 {和 }。 


以 我 们 手边 的 例子 来 看 , 你 应 该 大 致 猿 得 到 它 的 工作 方式 : Shell 执 行 第 一 组 介 于 if 与 
then 之 间 的 语句 块 。 如 果 最 后 一 条 执行 的 语句 成 功 地 退出 , 它 便 执行 statements-if- 
true-1, 否则 , 如 果 有 elif, 它 会 尝试 下 一 组 语句 块 。 如 果 最 后 一 条 语句 成 功 地 退出 ， 
则 会 执行 statements-if-true-2。 它 会 以 这 种 方式 继续 , 执行 相对 应 的 语句 块 , 直到 
它 碰 到 一 个 成 功 退 出 的 命令 为 止 。 
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如 果 if 或 elif 语句 里 没有 一 个 为 真 ， 并 且 else 子 句 存 在 ， 它 会 执行 statements- 
if-all-else-fails。 否 则 ， 它 什么 事 也 不 做 。 整 个 if.. Re ， 就 是 
在 then 或 else 后面 的 最 后 一 个 被 执行 命令 的 退出 状态 如 果 无 任何 命令 执行 ， 则 退 
出 状态 为 0。 举 例如 下 : 
if grep pattern ‘myfile > /dev/null 


then 


模式 在 这 里 
人 


else 


fi 


如 果 myfile 含 有 模式 pattern， 则 grep 的 退出 状态 为 0。 如 果 无 任何 的 行 匹配 此 模 
式 ， 则 退出 状态 的 值 为 1， : 且 如 果 发 生 一 个 错误 ， 则 会 具有 一 个 大 于 1 的 值 。Shell 会 根 
据 grep 的 退出 状态 ， 选 择 要 执行 哪 一 组 语句 块 。 


6.2.3 未 辑 的 NOT. AND 与 OR 


有 时 ,以 否定 状态 表达 测试 操作 会 比较 容易 些 :“ 如 果 John 不 在 家 , 则 …”, 在 Shell 下 ， 
这 种 情况 的 做 法 是 : 将 惊叹 号 放 在 管道 (pipeline) 前 : 

if ! grep pattern myfile > /dev/null 

then 

. .+1; “模式 不 在 这 里 

fi 
POSIX 在 1992 标 准 中 引进 这 种 标记 方式 。 你 可 能 会 看 到 较 旧 的 Shell 脚 本 使 用 冒号 (:) 
命令 ,其 实 并 没有 做 任何 事 ， 它 只 是 为 了 处 理 下 面 的 情况 : 


if grep pattern myfile > /dev/null 
then 


# 不 做 任何 事 
模式 不 在 这 里 


else 
fi 


除了 以 ! 来 测试 事情 的 相反 面 之 外 ， 你 也 常会 需要 以 AND 与 OR 结构 来 测试 多 重子 条 件 
J 且 他 不 已 ， 则 ……) 。 当 你 以 g& 将 两 个 命令 分 隔 时 ， Shell 会 先 执行 第 

。 如 果 它 成 功 地 退出 ， 0 a 则 整 
个 语 入世 视 为 已 经 记功， 


if grep patternl myfile && grep Pattern2 myfile 
then 


myfile 包含 两 种 模式 
fi 


相对 的 ，1 1 运算 符 则 是 用 来 测试 两 种 条 件 中 是 否 有 一 个 结果 为 真 : 
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it grep patternl. myfile 1|| grep pattern2 myfile 
then 
一 个 或 是 另 一 个 模式 出 现 
fi 


这 两 种 都 是 快捷 (short-circuit) 运算 符 ， 即 当 判 断 出 整个 语句 块 的 真 伪 时 ，Shell 会 立 
即 停止 执行 命令 。 举 例 来 说 ,在 command1 && commandG2 下 ， 如 果 command1 失败， 则 
整个 结果 不 可 能 为 真 ， 所 以 command2 也 不 会 被 执行 ， 以 此 类 推 ，commanGl 11 
command2 指 的 就 是 : 如 果 command1 成 功 ， 那 么 也 没有 理由 执行 command2。 


不 要 尝试 过 度 “ 简 练 ”而 使 用 && 和 11 取代 if 语句 。 我 们 不 反对 简短 且 简单 的 事情 ， 
如 下 : 


$ .who | grep tolstoy > /dev/null && echo tolatoy je logged on 
tolstoy is logged on 


上 面 的 实际 做 法 是 : 执行 who | grep ...， 且 如 果 成 功 ， 就 显示 信息 。 而 我 们 曾 见 
过 有 厂商 提供 Shell 脚本 ， 所 使 用 的 是 这 样 的 结构 : 
‘Some command && { 
one command 
a second command 


and a thirad command 
} 


花 括 号 将 所 有 命令 语句 块 在 一 起 ， 只 有 在 some_command 成 功 时 它们 才 被 执行 。 使 用 让 
可 以 让 它 更 为 简洁 : 
| if some. command 
then 
one command 


a second command 
and a third command 


6.2.4 test 命令 


test 命令 可 以 处 理 Shell 脚 本 里 的 各 类 工作 。 它 产生 的 不 是 一 般 输出 , 而 是 可 使 用 的 退 
出 状态 。test 接受 各 种 不 同 的 参数 ， 可 控制 它 要 执行 哪 一 种 测试 。 


test 命令 有 另 一 种 形式 : [. . .]， 这 种 用 法 的 作用 完全 与 ftest 命令 一 样 。 因 此 , 下 面 
是 测试 两 个 字符 串 是 否 相等 的 两 个 语句 : 


if test ?SSstr1" = "$str2" 1 ll "Setrl* = “Sstr2* ] 
then then 
fi fi 
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语法 
test [ expression ] 
[ [expression ] ] 
用 途 
为 了 测试 Shell 脚 本 里 的 条 件 ， 通 过 退出 状态 返回 其 结果 。 要 特别 注意 的 是 : 


这 个 命令 的 第 二 种 形式 ， iid nd Tanai ant 且 必 须 与 括 起 来 
的 expression 以 空白 隔 开 。 i 


主要 选项 与 表达 式 
见 表 6-6 与 内 文 。 
疗 为 模式 
test 用 来 测试 文件 属性 、 上 比较 字符 囊 及 比较 数字 。 


POSIX 风格 的 表达 式 只 是 在 真实 系统 上 是 可 用 表达 式 的 一 个 子 集 。 需 留意 可 
移植 性 的 问题 。: 要 了 解 更 多 信息 ， 可 参考 14.3:2 节 。 


除了 极 旧 的 UNIX 系统 外 ，test 都 已 内 置 于 Shell 中。 由 于 内 置 命令 会 比 外 
部 命令 先 被 找到 ， 所 以 ， 要 写 一 个 简单 的 测试 程序 并 将 其 执行 文件 命名 为 
test 会 有 点 麻烦 。 这 种 情况 下 你 必须 以 ./test 引 用 这 样 的 程序 (假设 它们 
在 当前 目录 内 )。 





POSIX 将 test 的 参数 描述 为 “表达 式 ”"， 有 一 元 表达 式 (unary) 和 二 元 的 (binary) 表 
达 式 。 通 常 ， 一 元 的 表达 式 由 看 似 一 个 选项 的 部 分 (例如 ，-a 用 来 测试 文件 是 否 为 目 
录 ) 与 一 个 相对 应 的 运算 数组 成 ,后 者 基本 上 (但 不 一 定 ) 是 一 个 文件 名 。 二 元 的 表达 
式 则 有 两 个 运算 数 与 一 个 内 风 的 运算 符 , 以 执行 某 种 比较 操作 。 再 者 ， 当 只 有 一 个 参数 
时 ，test 会 检查 它 是 否 为 null 字符 串 。 完 整 的 列表 参见 表 6-6。 


表 6-6: test 表达 式 


运算 符 ”如 果 …… 则 为 真 
string string 不 是 null 

-b file file 是 块 设 备 文件 
-c file file 是 字符 设备 文件 
-d file file 是 目录 

-e file file 存 在 
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表 6-6: test 表达 式 ( 续 ) 3 

运算 符 如 果 … 则 为 真 

-f file file 为 一 般 文 件 

-g file file 有 设置 它 的 setgid 位 

-h file 三 1e 是 一 符号 连接 

-LDL file .11e 是 一 符号 连接 《等 同 于 -hl) ， 
-n String | string 是 非 null 和 

-p file file 是 一 命名 的 管道 (FIFO 文件 ) 

-r file file 是 可 读 的 

-S file file 是 socket 

-s file file 不 是 空 的 

六 文件 描述 符 n 指向 一 终端 

-u file file 有 设置 它 的 setuid 位 

-w file. 本 file 是 可 写 入 的 

-x file file 是 可 执行 的 ， 或 file 是 可 被 查找 的 目录 
-2Z String -BtzIn9 为 ， null 

S51:=. 8582, 字符 串 s1 与 s2 相 同 

sl1 != .Ss2 -字符 串 51 与 s2 不 相同 

ni -eq n2 整数 nl 等 于 n2 

nl -ne n2 整数 n1 不 等 于 n2 

D -lt n2 :nn1 小 于 'n2 人 i 
nl -gt n2 . . “nl1 大 于 n2 | 

nl -le n2 n1 小 于 或 等 于 n2 

nl -ge n2 “nl 大 于 或 等 于 n2 





也 可 以 测试 否定 的 结果 ， 只 需 前 置 ! 字符 即 可 。 直面 是 测试 运行 的 疮 例 ， 


if [ -f "$file" ] 
then 

echo S$file is a regular file 
elif [ -Q "$file" 
then 

echo $file is a Qirectory 


PD 


fi 


if [ ! -x "$file" 
then 
echo $file is NOT executable 


fi 
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在 XSI 兼 容 的 系统 里 , test 版 本 是 较为 复杂 的 。 它 的 表达 式 可 以 与 -a (作风 辑 的 AND) 
与 -o ( 作 膛 辑 的 OR) 结合 使 用 。-a 的 优先 级 高 于 -0, 而 = 与 := 优先 级 则 高 于 其 他 的 
二 元 运算 符 。 在 这 里 ， 也 可 以 使 用 圆 括号 将 其 语句 括 起 来 以 改变 计算 顺序 。 





注意 : 在 使 用 -a 和 -o (它们 是 test 运算 符 ) 与 && 和 11 (它们 是 Shell 运算 符 ) 之 间 是 有 一 个 


if [ -n "$str" -a -f "$file" ] 一 个 test 命令 ， 两 种 条 件 
if [ -n "Sstr" ] g&& [ -f "$file ] 两 个 命令 ， 以 快捷 方式 计算 
if [ -n "$str" && -f "$file" ] 语法 错误 ， 见 内 文 


第 一 个 案例 ，test 会 计算 两 种 条 件 。 而 第 二 个 案例 ，Shell 执行 第 一 个 test 命令 ， 且 只 
有 在 第 一 个 命令 是 成 功 的 情况 下 ， 才 会 执行 第 二 个 命 们 。 最 后 一 个 案例 ，&g 为 Shell 运算 
符 ， 所 以 它 会 终止 第 一 个 test 命令 ， 然 后 这 个 命令 会 抱怨 它 找 不 到 结束 的 字符 ， 且 以 
失败 的 值 退出 。 即 使 test 可 以 成 功 地 退出 ， 接 下 来 的 检查 还 是 会 失败 ， 因 为 Shell (最 有 
可 能 ) 找 不 到 一 个 名 为 -f 的 命令 。 


ksh93 与 bash 都 支持 一 些 额外 的 测试 功能 。 在 14.3.2 节 里 有 更 多 的 相关 信息 。 
POSIX 的 test 算法 介绍 如 表 6-7 所 示 。 


表 6-7，POSIX 的 test 算 法 
参数 参数 什 和 果 RT 业 和 . 

















结 

0 退出 状态 为 伪 (1) 

1 如果 $1 非 null 退出 状态 为 真 (0) 
如 果 $1 为 null 退出 状态 为 伪 (1) 

2 如 果 $1 为 ! 否定 单一 参数 测试 的 结果 ，$2 

”如 果 $1 为 一 元 运算 符 。 运算 符 的 测试 结果 

其 他 情况 了 未 定义 

3 如 果 $2 为 二 元 运算 符 运算 符 的 测试 结果 
如 果 $1 为 ! 否定 双 参 数 测试 的 结果 ，$2 $3 
如 果 $1 是 ( 且 $3 是 ) ”单一 参数 测试 的 结果 ，$2(XSI) 
其 他 情况 未 定义 

4 如 果 $1 为 ! 否定 三 个 参数 测试 的 结果 ，$2 $3 $4 
如 果 $1 是 ( 且 $4 是 ) ， ”两 参数 测试 的 结果 ，$2 $3(XSD 
其 他 情况 未 定义 











>4 ”未 定义 
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为 了 可 移植 性 ，POSIX 标 准 里 建议 对 多 重 条件 使 用 Shell 层 级 测试 , 而 非 使 用 -a 与 -o 运 
算 符 (我 们 也 建议 这 么 用 ) 。 举 例如 下 : 
if [ -f "$file" ] && ! [ -w "$file" ] 
then 
# $file 存在 且 为 一 般 文件 ， 但 不 可 写 入 
echo $0: $file is not writable, giving up. >&2 


exit 1 
于 二 


下 面 是 几 个 使 用 test 的 诀窍 : 


需 有 参数 , | 
由 于 这 个 原因 ， 所 有 的 Shell 变量 展开 都 应 该 以 引号 括 起 来 ， 这 样 test 才能 接受 





， 一 个 参数 即使 它 已 变 为 null 字符 串 。 例 如 ， 
if' [.-£ “$file* ] .:. 正确 
if: [ =£ $file ] ... 不 正确 


在 第 二 种 情况 下 ,万 一 $file 恰巧 是 空 的 ， 则 test 接收 到 的 参数 会 少 于 它 所 需 
要 的 ， 这 将 引发 无 法 预料 的 奇怪 行为 。 


字符 第 比较 是 很 微 砂 的 
特别 是 字符 串 值 为 空 , 或 是 开头 带 有 一 个 减 号 时 ， test 命令 就 会 被 混淆 。 因 此 有 
了 一 种 比较 难看 不 过 广 为 使 用 的 方式 : 在 字符 串 值 前 置 字母 Xx(X 的 使 用 是 随意 的 ， 
但 这 是 传统 用 法 )。 
1 芷 "x$answer" = HRVUB 3} 
你 会 看 到 这 种 方式 出 现在 许多 Shell 脚 本 中 , 事实 上 POSIX 标 准 里 的 所 有 范例 都 是 
这 么 用 。 
将 所 有 参数 以 引号 括 起 来 的 算法 仅 适用 于 test, 而 这 种 算法 在 test 的 现代 版 本 
里 是 足够 的 , 即使 第 一 个 参数 的 开头 字符 为 减 号 也 不 会 有 问题 。 因此 我 们 已 经 很 少 
需要 在 新 的 程序 里 使 用 前 置 X 的 方式 了 。 不 过 , 如 果 可 移植 性 最 大 化 远 比 可 读 性 重 
要 ， 或许 使 用 前 置 X 的 方式 比较 好 (我们 有 时 还 是 会 这 么 做 )。 


test 赴 可 以 被 怕 弄 的 
当 我 们 要 检查 通过 网 络 加 载 的 文件 系统 访问 时 ,就 有 可 能 将 加 载 选项 与 文件 权限 相 
结合 ,以 欺骗 test ,使 其 认为 文件 是 可 读 取 的 , 但 事实 是 : 操作 系统 根本 就 不 让 
你 访问 这 个 文件 。 所 以 尽管 : 
test -r a_file && cat a_file 
在 理论 上 应 该 一 定 可 行 , 但 实际 上 会 失败 ( 注 2)。 针 对 这 一 点 你 可 以 做 的 就 是 加 上 
一 些 其 他 层面 的 防御 程序 : 


注 2: Mike Haertel 指出 这 种 做 法 一 直 都 不 是 百 分 百 的 可 靠 ; a_file 可 能 会 在 执行 test 与 
执行 cat 之 间 的 处 理 期 间 修 改 。 
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if test -r a _ file && cat a_ file 
then 
# cat worked, proceed on 
else 
# attempt to recover, issue an error message, etc. 
fi 
只 能 作 警 雪 数 字 现 试 
你 不 能 使 用 te st 做 任何 的 浮 点 数 算术 运算 。 所 有 的 数字 测试 只 可 处 理 整数 
(ksh93 认得 浮 点 数字 ， 但 如 果 你 在 意 可 移植 性 的 问题 ， 最 好 就 别 用 ) 。 


例 6-1 给 出 了 2.6 节 中 finguser 脚本 的 改良 版 。 这 个 版 本 会 测试 $#， 即 命令 行 参 数 编 
号 ， 如 果 未 提供 ， 则 显示 错误 信息 。 pe Re | 


例 .6-1: .用 以 寻找 用 户 的 脚本 ， 需 提供 username 参数 


#! /bin/sh E 


# finduser --- 寻找 是 否 有 第 一 个 参数 所 指定 的 用 户 登录 


it [ $# -ne 1:] 

then 
echo Usage: finduser username >&2 
exit 1 

fi 


who | grep $1 


6.3 case 语句 


如 采 你 需要 通过 多 个 数值 来 测试 变量 , 可 以 将 一 系列 if 与 e1if 测试 搭配 test 一 起 使 
用 : | 


if [ TL = i ] 
then 
i 针对 -E 选项 的 程序 代码 - 
elif [ "X$1l" = "XxX-d"” ] ]] [ "X$1" = "X--directory"” ] #: 人 允许 长 选项 


then 
针对 -d' 选项 的 程序 代码 
:else . 
echo $1: unknown option >&2 
exit 1 
fi 


不 过 这 么 做 的 时 候 写 起 来 很 不 顺手 ， 也 很 难 阅读 (在 echo 命令 里 的 >&2， 是 传送 输出 
到 标准 错误 ,这 部 分 将 在 7.3.2 节 讨论 ) 。 相 对 地 ，Shell 的 case 结构 应 该 用 来 进行 模式 
匹配 ; 
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case $1 in 
-£) 
针对 -下 选项 的 程序 代码 
-Q 1 Loy # 允许 长 选项 
针对 -a 选项 的 程序 代码 
oy 
echo $1: ueknown option >&2 


exit 1 


# 在 “esac” 之 前 的 .;; 形式 是 一 个 好 习惯 ， 不 过 并 非 必 要 
这 里 我 们 看 到 ， 要 测试 的 值 出 现在 case 与 in 之 间 。 将 值 以 双 引 号 括 起 来 虽然 并 非 必 
要 ， 但 也 无 妨 。 要 测试 的 值 ， 根 据 Shell 模式 的 列表 依次 测试 ， 发 现 匹 配 的 时 候 ， 便 执 
行 相对 应 的 程序 代码 ， 直 至 ; ; 为 止 。 可 以 使 用 多 个 模 式 ， 只 要 用 | 字符 加 以 分 隔 即 可 ， 
这 种 情况 称 为 “or (或 )”。 模式 里 会 包含 任何 的 Shell 通 配 字 符 , 且 变 量 、 命令 与 算术 替 
换 会 在 它 用 作 模 式 匹配 之 前 在 此 值 上 被 执行 


你 可 能 会 觉得 在 每 个 模式 列表 之 后 的 不 对 称 的 右 圆 括号 是 有 点 奇怪 :不 过 这 也 是 Shell 语 
言 里 不 对 称 定 界 符 的 唯一 实例 (instance)。(14.3.7 节 里 , 我 们 将 看 到 Pash 与 xsh 确实 
允许 在 模式 列表 前 加 上 一 个 开头 的 “(”)。 


最 后 的 * 模式 是 传统 用 法 , 但 非 必 需 的 , 它 是 作为 一 个 默认 的 情况 (case)。 这 通常 是 在 
你 要 显示 诊断 信息 并 退出 时 使 用 。 正 如 我 们 前 面 提 及 的 ,最 后 一 个 情况 (case) 不 再 需 
要 结尾 的 ; ; ， 不 过 加 上 它 ， 会 是 比较 好 的 形式 。 


6.4 循环 


除了 if 与 case 语 句 之 外 ， 还 有 Shell 的 循环 结构 也 是 非常 好 用 的 工具 。 


6.4.1 for 循环 

fo 循环 用 于 重复 整个 对 象 列表 ,依次 执行 每 一 个 独立 对 象 的 循环 内 容 。 对 象 可 能 是 命 
令 行 参数 、 文件 名 或 是 任何 可 以 以 列表 格式 建立 的 东西 。 在 3.2.7.1 节 里 ,我 们 曾 提 过 这 
两 行 的 脚本 ， 用 来 更 新 一 个 XML 文件 ， 


mv atlga.xml atlga.xml.old 
sed 's/Atlanta/&, the capital of the South/’' < atlga.xml.old. > atlga.xml 


现在 我 们 假定 ; 比较 可 能 出 现 的 情况 应 该 是 拥有 一 些 XML 文 件 ,再 由 这 些 XML 文 件 集 
结 成 小 册子 。 在 此 情况 下 , 我们 要 做 的 应 该 是 改变 所 有 这 些 XML 文件 。 所 以 for 循环 
最 适合 这 一 情况 : 
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for i in atlbrochure* .xml 
do 

echo $i 

mv $i $i.old 

sed 's/Atlanta/&, the capital of the South/' < $i.0ld > $i 
done 


该 循环 将 每 个 原始 文件 备份 为 副 文 件 名 为 .o1d 的 文件 , 之 后 再 使 用 seq 处 理 文件 以 建 
立新 文件 。 这 个 程序 也 显示 文件 名 , 作为 执行 进度 的 一 种 指示 , 这 在 有 许多 文件 要 处 理 
时 会 有 很 大 的 帮助 。 


for 循环 里 的 in 列表 (list) 是 可 选 的 ， 如 果 省 略 ，Shell 循环 会 遍历 整个 命令 行 参数 。 
这 就 好 像 你 已 经 输入 了 for i in "$@": 
for i # 循环 通过 命令 行 参数 
do 
case $i in 
-f£) 
aaac 
done 


6.4.2 while 与 until 循环 
Shell 的 while 与 until 循环 ， 与 传统 程序 语言 的 循环 类 似 。 语 法 为 : 


while condition until condition 
do do 

statements statements 
done done 


至 于 if 语句 ，condition 可 以 是 简单 的 命令 列表 ， 或 者 是 包含 && 与 | 1 的 命令 。 


while 与 until 唯 一 的 不 同 之 处 在 于 ， 如 何 对 待 condGition 的 退出 状态 。 只 要 
condition 是 成 功 退 出 ，whi1le 会 继续 循环 。 只 要 condition 未 成 功 结束 ，until 则 
执行 循环 。 例 如 : 


pattern=... 模式 会 控制 字符 串 的 缩 简 
while [ -n "$string" ] 当 字符 串 不 是 空 的 时 
do 

处 理 $string 的 当前 值 

string=${string%$pattern} 截 去 部 分 字符 串 


done 


实际 上 ，until 循环 比 while 用 得 少 ， 不 过 如 果 你 在 等 待 某 个 事件 发 生 ， 它 就 很 有 用 
了 。 见 例 6-2。 " 
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例 6-2: 使 用 until， 等 待 某 个 用 户 登 录 
# 等 待 特 定 用户 登 录 ， 每 30 秒 确认 一 次 


printf "Enter username: " 
read user 
until who ] grep "$user" > /dev/null 
do 
sleep 30 
done 


你 也 可 以 将 管道 放 入 到 while 循环 中 ， 用 来 重复 处 理 每 一 行 的 输入 ， 如 下 所 示 : 
产生 数据 | 


while read name rank serial_no 
do 


done 


以 上 述 例 子 来 说 , while 循环 的 条 件 所 使 用 的 命令 一 直 是 read。 在 稍 后 的 7.3.1 节 中 ， 
我 们 会 举 一 个 比较 实用 的 例子 。 在 7.6 节 里 ,我 们 会 告诉 你 ,还 可 以 使 用 管道 将 循环 的 
输出 传递 给 另 一 个 命令 。 


6.4.3 break 与 continue 


并 非 所 有 Shell 里 的 东西 都 是 直接 来 自 Algol 68。 Shell 也 从 C 借 用 了 eek continue 
命令 。 这 两 个 命令 分 别 用 来 退出 循环 ， 或 跳 到 循环 体 的 其 他 地 方 。 例 6-2 里 until ... 
do 的 wait-for-a-user (等 待 用 户 ) 脚本 ， 可 以 用 更 传统 的 方式 重 写 ， 见 例 6-3: 


例 6-3: 使 用 while 与 break， 和 等待 用 户 登 录 
# 等待 特定 用 户 登 录 ， 每 30 种 确认 一 次 


printf "Enter username: *” 
read user 
while true 
do . . 
if who | grep "Suser" > /dev/null 
then 
break 
£1i 


sleep 30 


. done 


true 命令 什么 事 也 不 必 做 ， 只 是 成 功 地 退出 。 这 用 于 编写 无 限 循环 ， 即 会 永久 执行 的 
循环 。 在 编写 无 限 循 环 时 ; 必须 放置 一 个 退出 条 件 在 循环 体内 , 正如 同 这 里 所 做 的 。 另 
有 一 个 false 命 令 和 它 有 点 相似 , 只 是 较 少 用 到 , 它 也 不 做 任何 事 , 仅 表示 不 成 功 的 状 
态 。false 命令 常见 于 无 限 的 until false ... 循环 中 。 
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continue 命 令 则 用 于 提早 开始 下 一 段 重复 的 循环 操作 ， 也 就 是 在 到 达 循 环 体 的 底部 之 
前 。 


break 与 continue 命 令 都 接受 可 选 的 数值 参数 ， 可 分 别 用 来 指出 要 中 断 (break) 或 继 
续 多 少 个 被 包含 的 循环 (如 果 循 环 计数 需要 的 是 一 个 在 运行 时 可 被 计算 的 表达 式 时 , 可 
以 使 用 $((...)))。 举 例如 下 : 


while conditioni : 外 部 循环 
dO ao 
while condition2 内 部 循环 
do ..， 
break 2 外 部 循环 的 中 断 
Qone 
Qone 


在 中 断 之 后 ， 继 续 执 行 这 里 的 程序 


break 与 continue 特 别 具 备 中 断 或 继续 多 个 循环 层级 的 能 力 ， 从 而 以 简洁 的 形式 弥补 
了 Shell 语言 里 缺乏 goto 关键 字 的 不 足 。 


6.4.4 ， shift 与 选项 的 处 理 

我 们 在 6.1.2.2 节 中 曾 简 短 提 及 shift 命 令 , 它 用 来 处 理 命令 行 参数 的 时 候 , 一 次 向 左 位 

移 一 位 (或 更 多 位 )。 在 执行 shift 之后, 原来 的 $1 就 会 消失 , 以 $2 的 旧 值 取代 ，s$2 

的 新 值 即 为 $3 的 旧 值 ， 以 此 类 推 ， 而 $# 的 值 也 会 逐次 减少 。shift 还 接受 一 个 可 选 

的 参数 ， 也 就 是 可 以 指定 一 次 要 移动 几 位 : 默认 为 1。 

通过 结合 while、case、break 以 及 shift， 可 以 做 些 简单 的 选项 处 理 ， 如 下 所 示 : 
# 将 标志 变量 设置 为 空 值 


file= verbose= quiet= long= 
while [ $# -gt 0 ] 执行 循环 直到 没有 参数 为 止 
do 
case $1 in 检查 第 一 个 参数 
-f£) file=$2 
shift 移 位 退出 “-f”， 使 得 结尾 的 shift 得 到 在 $2 里 的 值 
-Vv) verbose=true 
quiet= 
-G) quiet=true 
verbose= 
-1) long=true 
es) shift ”传统 上 ， 以 -- 结束 选项 


break 
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二 echo $0: $1: unrecognized option >&2 
*) break 无 选项 参数 ， 在 循环 中 跳出 
esac 局 

，Sshift 设置 下 一 个 重复 


done 


在 此 循环 结束 之 后 , 不 同 的 标志 变量 都 会 设置 , 且 可 以 使 用 test 或 case 测 试 。 任何 剩 
下 的 无 选项 参数 都 仍然 是 可 利用 的 ， 以 便 在 $8 中 做 进一步 的 处 理 。 


getopts 命 令 简化 了 选项 处 理 。 它 能 理解 PROSIX 选 项 中 将 多 个 选项 字母 组 织 到 一 起 的 用 
法 ， 也 可 以 用 来 遍历 整个 命令 行 参 数 ， 一 次 一 个 参数 。 


getopts 的 第 一 个 参数 是 列 出 合法 选项 字母 的 一 个 字符 串 。 如 果 选 项 字母 后 面 跟着 冒 
号 , 则 表示 该 选项 需要 一 个 参数 , 此 参数 是 必须 提供 的 。 一 旦 遇 到 这 样 的 选项 ,getopts 
会 放置 参数 值 到 变量 OPTARG 中 。 另 一 个 变量 OPTIND 包 含 下 一 个 要 处 理 的 参数 的 索引 
值 。Shell 会 把 该 变量 初始 化 为 1。 


getopts 的 第 二 个 参数 为 变量 名 称 , 在 每 次 getopts 调 用 时 , 该 变量 会 被 更 新 ;. 它 的 值 
是 找到 的 选项 字母 。 当 getopts 找 到 不 合法 的 选项 时 , 它 会 将 此 变量 设置 为 一 个 问号 字 
符 。 我 们 以 getopts 重 写 前 面 的 例子 : 


# 设置 标志 变量 为 空 


file= Verbose= Guiet= long= 


while getopts f:vaql opt 


do 
case S$opt in 检查 选项 字母 
£f) file=$OPTARG 
V) verbose=true 
quiet= 
qa) quiet=true 
Verbose= 
1 long=true 
esac 
done 
shift $((OPTIND - 1)) 删除 选项 ， 留 下 参数 


你 会 发 现 三 个 明显 差异 。 首先 , 在 case 里 的 测试 只 是 用 在 选项 字母 上 ， 开 头 的 减 号 被 
删除 了 。 再 者 ， 针 对 -- 的 情况 (case) 也 不 见 了 : 因为 getopts 已 自动 处 理 。 最 后 也 
消失 的 就 是 针对 不 合法 选项 的 默认 情况 ; getopts 会 自动 显示 错误 信息 。 
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getopts 
语法 
getopts option_ spec variable [ arguments ... |] 
用 途 | 
简化 参数 处 理 ， 并 且 让 Shell 脚本 可 以 轻松 地 匹配 于 POSIX 参数 处 理 惯例 。 
竺 要 竟 顶 


当 它 被 重复 调用 时 (例如 在 while 禧 环 中 ), 会 依次 通过 给 定 的 命令 行 参 数 ， 
或 者 未 提供 则 是 "$8@"， 在 -- 或 第 一 个 非 选 项 参数 处 ,或 是 碰 到 错误 时 ,会 
以 非 零 值 退 出 。option_spec 用 来 描述 选项 及 它们 的 参数 ， 男 内 文 。 i 
对 每 个 会 法 的 选项 , 设置 Variable 为 选项 字母 。 如 果 选 项 有 一 个 参数 , 则 参 
数值 会 置 于 OPTARG 里 。 在 处 理 的 结尾 处 ，OPTIND 会 设置 为 第 一 个 非 选 项 
人 见 内 文 说 明 ， 

E25 四 : a 

ksh93 版 未 的 getopts 会 遵 特 POSIX; 但 还 提供 许多 额外 的 功 能 。 可 才 

ksh93 文档 ， 或 是 《Learning the Korn Shell》 (O’Reilly)， : 














不 过 一 般 来 说 ， 在 脚本 里 处 理 错误 会 比 使 用 getopts 的 默认 处 理 要 容易 ,将 冒号 (:) 
置 于 选项 字符 串 中 作为 第 一 个 字符 ， 可 以 使 得 getopts 以 两 种 方式 改变 它 的 行为 ; 首 
先 ， 它 不 会 显示 任何 错误 信息 ， 第 二 ， 除 了 将 变量 设置 为 问号 之 外 ，OPTARG 还 包含 了 
给 定 的 不 合法 选项 字母 。 以 下 便 是 选项 处 理 循环 的 最 后 版 本 : 

# 设置 标志 变量 为 空 


file= verbose= quiet= long= 


# 开头 的 冒号 ， 是 我 们 处 理 错误 的 方式 
while getopts :fivdql opt | 


do . . 四 Sh 
Case SE in 检查 选项 字母 
工 ) file=$OPTARG 
V) verbose=true 
quiet= 
q) .uiet=true 
“ verbose= 
1) long=true 
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|) echo "$0: invalid option -$OPTARG” >&2 
echo "Usage: $0 [-f .file] ‘t-vgql] [files ...}]" >&2 
exit 1 

esac 


done 


shift $((OPTIND - 1)) 删除 选项 ， 留 下 参数 








警告 。，OPTIND 变 量 是 父 脚本 与 其 引用 的 任何 函数 所 共享 的 。 要 使 用 getopts 来 解析 自己 的 参数 
的 函数 ， 应 将 OPTIND 重 设 为 1。 我 们 不 建议 在 父 脚本 的 选项 处 理 循环 中 调用 这 样 的 防 数 
(基于 此 ，ksh93 给 每 个 函数 它 自己 私有 的 OPTIND 版 本 。 再 次 提醒 留意 这 点 )。， ， 





6.5 他 数 
就 像 其 他 的 程序 语言 一 样 ， 函 数 (function) 是 指 一 段 单独 的 程序 代码 ， 用 以 执行 一 些 
定义 完整 的 单项 工作 。 在 大 型 程序 里 ， 函 数 可 以 在 程序 的 多 个 地 方 使 用 (调用) 。 


函数 在 使 用 之 前 必须 先 定义 。 这 可 通过 在 脚本 的 起 始 处 ， 或 是 将 它们 放 在 另 一 个 独立 文 
件 里 且 以 点 号 (. ) 命令 来 取 用 (source) 它们 ( . 命令 在 稍 后 7.9 节 中 会 作 说 明 ) 。 定 义 
方式 如 例 6-4 所 示 。 


例 6-4: 等 待 用 户 登录 一 函数 版 


# Wait_ for _UsSer -=- 等 待 用 户 登录 
# 
# 语法 Ee user .[ sleeptime ] 


wait_for user () { . 和 
until who | grep "$1"* > /dev/null 
do 


Sleep ${2:-30}) 
done 


} 


函数 被 引用 (执行) 的 方式 与 命令 相同 ;提供 函数 名 称 与 任何 相对 应 的 参数 ,wait_for_ 
user 国 数 可 以 以 两 种 方式 被 引用 


wait_for_user tolstoy 等 待 用 户 tolstoy， 每 30 种 检查 一 次 
wait_for_user tolstoy 60 等 待 用 户 tolstoy， 每 60 秒 检查 一 次 


在 函数 体 中 ,位置 参数 ($1、$2、…、$#、$*, 以 及 $8) 都 是 函数 function) 的 参数 。 
父 脚本 的 参数 则 临时 地 被 函数 参数 所 掩盖 (shadowed) 或 隐藏 。$0 依旧 是 父 脚本 的 名 
称 。 当 函数 完成 时 ， 原 来 的 命令 行 参数 会 恢复 。 
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在 Shell 函数 里 ，return 命令 的 功能 与 工作 方式 都 与 exit 相同 : 
answer_the_question () { 
i 42 
} 
需 注 意 的 是 : 在 Shell 函数 体 里 使 用 exit ， 会 终止 整个 Shell 脚本 ! 
因为 return 语 名 会 返回 一 个 退出 值 给 调用 者 ， 所 以 你 可 以 在 if 与 while 语 句 里 使 用 
函数 。 举 例 来 说 ， 可 使 用 Shell 的 函数 架构 取代 test 所 执行 的 两 个 字符 串 的 比较 : 
# equal --- 比较 两 个 字符 串 
equal() { 
case "$1" in 
"$2") return 0 ;; # 两 字符 串 匹配 
esac 
return 1 , # 不 匹配 
} 
if equal "$a" "$b" 


i£f : :equal “SC ed" 


return 


说 法 
return [ exit-value | 
用 途 
返回 由 Shell 函数 得 到 的 退出 值 给 调用 它 的 脚本 。 
主要 人 选项 
无 
行为 模式 
如 果 未 提供 参数 ， 则 使 用 默认 退出 状态 也 就 是 最 后 一 个 执行 的 命令 的 退出 
状态 。 如 果 这 就 是 你 要 的 ， 那 么 严谨 的 Shell 函数 写法 为 : 


return $? 


有 些 Shell 允许 在 脚本 里 使 用 return， 但 如 果 用 于 函数 体 之 外 ， 则 视 为 等 同 
于 exit。 这 种 用 法 并 不 建议 ， 因为 会 出 现 可 移植 性 的 困扰 。 





有 一 个 项 目 在 这 里 需要 注意 : 在 case 模 式 列表 里 使 用 双 引 号 。 这 么 做 会 强制 该 值 视 为 字 
面 上 的 字符 串 , 而 非 Shell 模 式 。 不 过 在 $1 上 使 用 引号 则 无 伤 大 雅 , 但 在 这 里 没有 必要 。 
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函数 也 有 像 命 令 那 样 会 返回 整数 的 退出 状态 值 : 零 表 示 成 功 , 非 零 则 为 失败 。 如 果 要 返 
回 其 他 的 值 ， 范 数 应 该 设置 一 个 全 局 性 Shell 变量 ， 或 是 利用 父 脚 本 捕捉 它 〈 使 用 命令 
替换 ， 见 7.6 节 ) ， 显 示 其 值 。 


myfunc () { 
} 
zx (myfunc "$@") 调用 myfunc， 并 存储 输出 


5.5 节 里 的 例 5$-6 显 示 了 一 个 含有 9 个 步骤 的 管道 ， 从 输入 文件 中 产生 一 个 SGML/XML 
标签 的 排序 列表 。 它 仅 在 命令 行 所 指定 的 一 个 文件 上 运作 。 我 们 现在 可 以 使 用 fcr 循 环 
处 理 参 数 ， 并 利用 Shell 函数 封装 管道 ， 以 利于 处 理 多 个 文件 。 修 改 后 的 脚本 见 例 6-5 


例 6-5: 从 多 个 文件 中 ， 产 生 SGML 标签 列表 

#1 /bin/sh - 

# 读 取 一 个 或 多 个 在 命令 行 上 所 提供 的 含有 像 <tag>word</tag> 人 
# HTML/SGML/XML 文件 ， 并 将 其 以 上 ab 分 隔 列表 内 容 为 : 

# 计数 值 ”单词 标签 文件 名 

# 由 小 至 大 排序 单词 与 标签 ， 

# 将 输出 产生 至 标准 输出 上 。 


# 
# 语法 : 
# taglist xml-files 


process{}) { 
cat "$1" | 
sed -e 'si#systemitem *role="url"#URL#g' -e 's#/systemitem#/URL#' | 
tr (Off ‘\nNnnNn\NnN\NnNMN\N’ | 
egrep '>[^<>]j+</' | 
awk -F’'[<>]’ -Vv FILE="*$1* \ 
'{ printf("%-3ls\t$%-1l5s\t%s\n", $3, $2, FILE) }' | 


sort | 
uniq -ce | 
sort -k2 -k3 | 
awk !'{ 
print ($2 = = Last) ? ($0 " <----") : $0 


Last = $2 
} $ 
} 

for f in "s$@” 

do 


process "S$f" 
done 


函数 (至少 在 POSIX Shell 里 ) 没有 提供 局 部 变量 ( 注 3) 。 因 此 所 有 的 函数 都 与 父 脚本 





注 3: ”bash、ksh88: ksh93 以 及 zsh 都 提供 局 部 变量 功能 ， 但 语法 不 尽 相 同 。 
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共享 变量 , 即 , 你 必须 小 心 留意 不 要 修改 父 脚本 里 不 期 望 被 修改 的 东西 ,例如 PATH, 不 
过 这 也 表示 其 他 状态 是 共享 的 , 例如 当前 目录 与 捕捉 信号 (信号 与 捕捉 将 在 13.3.2 节 讨 
论 )。 


6.6 ”小 结 


变量 在 正式 一 点 的 程序 里 是 必 备 项 目 。 Shell 的 变量 会 保存 字符 串 值 , 而 大 量 的 运算 符 可 
在 $tvar...} 里 使 用 让 你 控制 变量 替换 的 结果 


Shell 提供 许多 特殊 变量 (那些 具有 非 文 本 和 数字 字符 名 称 的 ， 例 如 $? 与 $1)， 用 来 访 
问 特殊 信息 ， 例 如 命令 退出 状态 。Shell 也 有 许多 预先 定义 的 特殊 变量 ,例如 PS1 一 一 
用 来 设置 主要 提示 字符 捉 。 袜 置 参数 与 $* 和 $8 这 类 的 特殊 变量 , : 则 用 来 在 脚本 : (或 函 
数 ) 被 引用 时 ， A dh i 3 envV、 export 以 及 readonly 则 用 来 控 
制 环境 。 


I ER 


程序 的 退出 状态 是 一 个 小 的 整数 ,. 可 以 在 程序 完成 后 ， 供 引用 者 使 用 :Shell 脚本 使 用 
exit 命令 来 艇 这 件 事 ,而 Shell 函数 则 使 用 return 命 令 。 Shell 脚本 可 以 取得 在 特殊 
变量 $ ?内 执行 的 最 后 一 个 命令 的 退出 状态 。 


退出 状态 可 以 搭配 if, while 与 until 语句 来 进行 流程 控制 也 可 与 !、&&， 以 及 11 
运算 符 搭配 使 用 。 


test 命令 及 其 别名 [ . 人 与 数值 ， 在 if、 while 以 及 
until 语 名 里 ， We 


for 提 供 遍 历 整 组 值 的 循环 机 制 ,这 整 组 的 值 可 以 是 字符 申 、 文件 名 或 其 他 等 等 。 while 
与 unti1 提 供 比较 传统 的 循环 方式 ， 加 上 break 与 continiue 提 供 额外 的 循环 控制 。 case 
语句 提供 一 个 多 重 比 较 的 功能 ， 类 似 C 与 C+t+ 里 的 switch 语句 。 | - 


getopts、shift 与 $# 提 供 处 理 命令 行 的 工具 。 


最 后 , Shell 函数 可 将 相关 命令 组 织 到 一 起 , 之 后 再 将 它 视 为 一 个 独立 单元 调用 使 用 。 它 
们 有 点 像 Shell 脚本 ， 只 不 过 它 将 命令 存放 在 内 存 里 ， 这 样 会 更 有 效率 ， 且 它 们 还 能 影 
响 引用 脚本 的 变量 与 状态 (例如 当前 目录 )。 
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本 章 将 完整 介绍 Shell 语 言 。 首先 讨论 的 是 文件 : 如 何以 不 同 的 方式 处 理 输 入 /输出 和 产 
生 文件 名 。 接着 是 命令 替换 , 也 就 是 让 你 使 用 一 个 命令 的 输出 作为 命令 行 的 参数 。 然 后 ， 
我 们 继续 将 重点 放 在 命令 行 上 , 讨论 Shell 提 供 的 各 类 引用 (quoting)。 最 后 , 则 是 深入 
探讨 命令 执行 顺序 ， 并 针对 内 建 于 Shell 里 的 命令 作 介 绍 。 


7:1 “标准 输入 、 标 准 输出 与 标准 错误 输出 
标准 输入 /输出 (Standard 1/0) 可 能 是 软件 工具 设计 原则 里 最 基本 的 观念 了 。 它 的 构想 
是 : 程序 应 有 一 个 数据 来 源 、 数 据 出 口 〈 数 据 要 去 哪 )， 以 及 报告 问题 的 地 方 。 它 们 分 
别 叫 做 标准 输入 (standard input) .标准 输出 (standard output ) 和 标准 错误 输出 (standard 
error) 。 程 序 应 该 不 知道 也 不 在 意 其 输入 与 输出 背后 是 哪 种 设备 ， 这 些 设备 可 能 是 磁盘 
文件 、 终 端 、 磁 带 机 、 网 络 连接 ， 或 者 甚至 是 另 一 个 执行 中 的 程序 ! 程序 可 以 预期 , 在 
它 启 动 的 时 候 ， 这 些 标准 位 置 都 已 打开 ， 且 已 经 准备 好 可 以 使 用 了 。 


有 很 多 UNIX 程 序 都 遵循 这 一 设计 理念 。 黑 认 情况 下 ， 它 们 会 读 取 标准 输入 、 写 人 标准 
输出 ， ,并 将 错误 信息 传递 给 标准 错误 输出 。 正如 我 们 在 第 5 章 所 见 到 的 , 这 样 的 程序 我 
们 称 它 为 过 滤器 (filter) ， 因 为 它们 “过 滤 ” 数据 流 ， 每 一 个 都 会 在 数据 流 上 执行 某 种 
运算 ， 再 通过 管道 ， 将 它 传递 给 下 一 个 。 


“使 用 read: 读 取 行 
read 命令 是 将 信 息 传 递 给 Shell 程序 的 重要 方式 之 一 : 


$ x=abc ) printf "x is now '%s'. Enter new value: " $x ; read x 
x is now 'abc'. Enter new value: PDQ 

$ echo $x 

PDQ 


754 
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read 
read [ -r ] variable ... 
用 途 .| 加 
将 信息 读 入 一 个 或 多 个 Shell 变量 。 
”主要 选 顶 区 
-Ir 


原始 读 取 ， 不 作 任 何 处 理 。 不 将 行 人 
行 为 模式 
自 标 准 输入 读 取 行 (数据 ) 后 ,通过 Shell 字段 切 审 的 功能 (使 用 SIFS) 进 
行 切 分 。 第 一 个 单词 赋值 给 第 一 个 变量 ， 第 二 个 单词 则 赋值 第 二 个 变量 ， 以 
此 类 推 。 如 果 单 词 多 于 变量 ， 则 所 有 剩 下 的 单词 ， 全 赋值 给 最 后 一 人 
zeadQ 一 翌 遇 到 文件 结尾 (end-of-file) ， 会 以 失败 值 退 出 。 


有 果 输 入 行 以 反 儿 村 结尾, 则 read 会 丢 育 反 儿 杠 与 换行 字符 ,然后 继续 读 取 
ed 如 果 你 有 使 用 -r 选 项 ， 那么 么 read 便 会 以 字面 意义 读 取 最 后 的 1 
反 斜 杠 。 
拿 各 
当 你 将 read 应 用 在 管道 里 时 , 许多 Shell 会 在 一 个 分 开 的 进程 内 执行 它 。 在 
这 种 情况 下 , 任何 以 read 所 设置 的 变量 , 都 不 会 保留 它们 在 父 Shell 里 的 值 。 
对 管道 中 间 内 的 箱 环 ， 也 是 这 样 。 








一 





-eaa 可以- 次 读 取 所 有 的 信 到 多 个 变量 里 。 这 种 情况 下 ， 在 $IFs 里 的 字符 会 分 隔 输 
入 行 里 的 数据 ， 使 其 成 为 各 自 独立 的 单词 。 例 如 ; 


printf *Enter name, rank, serial number: * 
read. name rank Serno | 


最 典型 的 用 法 是 处 理 /etc/passwa 文 件 。 其 标准 格式 为 7 个 以 冒号 隔 开 的 字段 : 用 户 名 
称 、 加 密 的 密码 、 数值 型 用 户 ID、 数值 型 组 ID、 全 名 、 根 目 录 与 登录 Shell。 例如 : 


jones:*:32713:899:Adrian W. Oe Ol ye 0123: ee /pin/ksh, 


你 可 以 使 用 简单 的 循环 逐 行 处 理 /etc/passwa: 


while IFS=:; read user pass uid gid fullname homedir Shell 
do 
处 理 每 个 用 户 的 行 


done < /etc/passwd 
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这 个 循环 并 不 是 说 “ 当 IFS 等 于 冒号 时 , 便 读 取 ……”, 而 是 通过 IFS 的 设置 , 让 read 
使 用 冒号 作为 字段 分 隔 字 符 , 而 并 不 影响 循环 体 里 使 用 的 IFS 值 , 也 就 是 说 , 它 只 改变 
read 所 继承 环境 内 的 IFS 值 。 这 一 点 在 6.1.1 节 已 作 过 说 明 。 while 循环 则 在 6.4 囊 里 
说 明 。 


当 遇 到 输入 文件 结尾 时 ，read 会 以 非 0 值 退出 。 这 个 操作 将 终止 while 循环。 


乍 看 之 下 可 能 会 觉得 将 /etc/passwd 的 重 定向 放置 于 循环 体 的 结尾 有 点 奇怪 ,不 过 这 是 
必需 的 , 这样 一 来 ,read 才 会 在 每 次 循环 的 时 候 看 到 后 续 的 行 。 如 果 循 环 写成 这 个 样子 : 
# 重 定向 的 不 正确 使 用 
while IFS=: read user pass uid gid 和 homedir Shell < 人 


do 
处 理 每 个 用 户 的 行 . 


呈 daae 
永和 不 会 上 了 (和 于， Shell 都 会 再 打开 ge 且 read 只 读 
取 文 件 的 第 一 行 


while redd 二 . do ... done < fi1e 还 有 一 种 替代 方式 ， ds cat 和 循 
# 较 容易 读 取 ， 不 过 使 用 cat 会 损失 一 点 效率 : 


cat /etc/passwd | 
while IFS=*..read user pass uid gid fullname homedir .shell 
.do i 本 
处 理 每 个 用 户 的 行 


done 


有 一 个 常见 的 小 技巧 任何 命令 都 能 用 来 将 输入 通过 管 管道 传送 给 read。 当 read 用 在 
循环 中 时 ， 这 一 技巧 格外 有 用 。 在 :3.2.7 节 里 ， 我 们 曾 展 示 过 这 个 简单 的 脚本 ， 用 来 复 
制 整个 目录 树 : 


find /home/tolstoy -type d -print | 寻找 所 有 目录 
sed 's;/home/tolstoy/;/home/lt/;' | 更 改名 称 ， 留 意 使 用 的 是 分 号 定 界 符 
‘sed 's/ “mkGir / | 插入 mkqaiz 命令 a 
Sh -x : . “ 以 shell 的 眼 踪 模 式 执行 


观点 来 看 更 加 自然 ， 也 就 是 
使 用 循环 ， 


find /home/tolstoy -type d -print | 寻找 所 有 目录 
sed 's;/home/tolstoy/;/home/lt/;' | 更 改名 称 ， 六 间 使 用 的 是 分 号 定 界 特 ” 
while read newdir 读 取 新 的 目录 名 
do : 
mkdir $newdir 建立 目录 
Qone 
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(我 们 注意 到 这 个 脚本 并 不 完美 : 特别 是 它 无 法 保留 原始 目录 的 所 有 权 与 使 用 权限 ) 


如 果 输 入 单词 多 于 变量 时 , 最 后 剩 下 的 单词 全 部 被 指定 给 最 后 一 个 变量 。 理 想 的 行为 应 
转 义 这 个 法 则 : 使 用 read 搭配 单一 变量 ， 将 一 整 行 的 输入 读 取 到 该 变量 中 。 


很 早 以 前 ，read 默认 的 行为 便 是 将 输入 行 的 结尾 反 斜 杠 看 作 续 行 (line continuation) 
的 指示 字符 。 这 样 的 一 行 会 使 得 read 舍弃 反 斜 杠 与 换行 字符 的 结合 ， 且 继续 读 取 下 一 
个 输入 行 : 

$ printf "Enter name, rank, serial number: " } read name rank serno 

Enter name, rank, serial number: Jones \ 

> Major \ 

>123-45-6789 


$ printf "Name: %Ss, Rank: %s, Serial number: %s\n" $name S$rank $serno 
Name: Jones, Rank: Major, Serial number: 123-45- S89 


侦 尔 你 还 是 会 想 要 读 取 一 一 整 行 的 时 候 ; 而 不 管 那 一 行 5 包含 了 什 和 。-z 选 项 可 以 实现 此 目 
的 (-r 选 项 是 特定 于 POSIX 的 , 许多 Bourne Shell 并 不 支持 ), 当 给 定 -r 选 项 时 , read 
不 会 将 结尾 的 反 斜 杠 视 为 特殊 字符 : ， 


$ read -r name rank serno 


tolstoy \ 只 提供 两 个 字段 
$ echo $name $rank $serno 
tolstoy \ i $serno 是 空 的 


7.3 关于 重 定向 


我 们 已 经 介绍 且 使 用 过 基本 的 输出 人 重 定向 运算 符 ， <、>、>>， 以 及 1。 在 本 节 , 我 们 
要 看 看 还 有 哪些 运算 符 可 以 使 用 , 并 介绍 文件 描述 符 (file-descriptor) 处 理 的 重要 话题 。 


7.3.1 ”额外 的 重 定 向 运算 符 
这 里 是 Shell 提供 的 额外 运算 符 : 
使 用 set -CcC 杰 配 | 
POSIX Shell 提供 了 防止 文件 意外 截断 的 选项 : 执行 set -C 命令 可 打开 Shell 所 


谓 的 禁止 覆盖 (noclobber) 选项 , 当 它 在 打开 状态 下 时 , 单纯 的 > 重 定向 遇 到 目标 
文件 已 存在 时 ， 就 会 失败 。> | 运算 符 则 可 令 noclobber 选项 失效 。 


起 供 行内 输 人 (inline input) 的 << 与 <<- 
使 用 program << aelimiter， 可 以 在 Shell 脚本 正文 内 提供 输入 数据 。 


这 样 的 数据 叫 作 和 借入 文件 (here document) 。 默 认 情 况 下 ，Shell 可 以 在 嵌入 文件 
正文 内 做 变量 、 命 令 和 算术 替换 ， 
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ca /home 移 到 根 目录 的 顶端 
Gu -s * | 产生 原始 磁盘 用 量 
sort -nr | 以 数字 排序 ， 最 高 的 在 第 一 个 
:sed 10G | 在 前 10 行 之 后 就 停止 ”… 
while read amount name 
do 


mail -s "disk Usage warning" Sname << EOF 
Greetings. You are one of the top 10 consumers of disk space 
on the System. Your home directory uses S$amount disk blocks. 


Please clean up unneeded files, as soon as possible. 
Thanks, 


Your friendly neighborhood system administrator. 
EOF 
done 


这 个 范例 将 电子 邮件 发 送 给 系统 上 前 十 名 的 “磁盘 贪 禁 户 "， 要 求 它 们 清理 自己 的 
根 目 录 (以 我 们 的 经 验 来 说 , 这 种 信息 多 半 没 有 用 , 不 过 过 这 么 做 会 让 系统 管理 人 员 
党 得 好 过 些 ) 。 


如 果 定 界 符 以 任何 一 种 形式 的 引号 括 起 来 ， 


$ 1=5 设置 变量 

$ cat << 'E’'OF 定 界 符 已 被 引用 . 
> This is the value of i1: $1 尝试 变量 参照 

> Here is a command substitution: $(echo hellio, world) 命令 替换 

> EOF 

This is the value of i: $i 元 长 式 地 显示 文字 


Here is a command substitution: ${echo hello, world) . 


嵌入 文件 重 定 向 器 的 第 二 种 形式 有 一 个 负 号 结尾 。 这 种 情况 下 ， 所 有 开头 的 制 表 符 
(Tab) 在 传递 给 程序 作为 输入 之 前 ， 都 从 嵌 人 文件 与 结束 定 界 符 (closing 
delimiter) 中 删除 (注意 : 只 有 开头 的 制 表 字 符 会 被 删除 , 开头 的 空格 则 不 会 删除 ) 。 
这 人 么 做 ， 让 Shell 脚本 更 易于 阅读 了 ， eal ea dd oe 


例 7-1: 给 磁盘 贪 禁 户 的 一 封 信 


cd /home 移 到 home 目录 顶端 
Qu -s * ] 产生 原始 磁盘 使 用 量 
sort -nr | 以 数字 排序 ， 最 高 的 在 第 一 个 
sed 10q | 找到 前 10 行 就 停 下 来 
while read amount name 
do 


mail -s "dGisk usage warning" $name <<- EOF 
Greetings.: You are one of the top 10 consumers 
of disk space on the system. Your home directory “ 
uses $amount disk blocks. 
Please. clean up unneeded files, as soon as possible. 


Thanks, 
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Your friendly neighborhood system administrator. 
EOF 
done 


以 <> 打开 一 个 文件 作为 答 人 与 输出 之 用 
”使 用 program <> file, 可 供 读 取 与 写 入 操作 。 默认 是 在 标准 输入 上 打开 file。 
一 般 来 说 , < 以 只 读 模 式 打开 文件 , 而 > 以 只 写 模 式 打 开 文 件 。<> 运 算 符 则 是 以 读 


取 与 写 入 两 种 模式 打开 给 定 的 文件 。 这 交 由 program 确定 并 充分 利用 ， 实 际 上 ， 
使 用 这 个 操作 符 并 不 需要 太 多 的 支持 。 





警告 ，<> 最 初 是 出 现在 最 早 的 V7 Bourne Shell 上， 不 过 并 没有 形成 文档 ， 且 经 验 告诉 我 们 ， 在 
很 多 环境 下 ， 它 的 运行 会 有 点 问题 。 基于 此 ， 它 并 未 被 大 家 广泛 了 解 或 使 用 。 虽 然 它 已 在 
1992 年 的 POSIX 标准 中 标准 化 ， 但 很 多 系统 里 的 /bin/sh 并 不 支持 它 。 因此 如 果 你 对 程 
序 可 移植 性 的 要 求 很 高 ， 最 好 避免 使 用 。 


对 于 使 用 >1 我 们 也 有 相同 的 警告 ,此 功能 来 自 于 Korn Shell， 并 在 1992 年 已 标准 化 ,不 
过 至 今 仍 有 一 些 系统 不 支持 。 | 





7.3.2 ”文件 描述 符 处 理 


在 系统 内 部 ，UNIX 是 以 一 个 小 的 整数 数字 ， 称 为 文件 描述 符 (file descriptors)， 表 示 
每 个 进程 的 打开 文件 ,数字 由 零 开始 , 至 多 到 系统 定义 的 打开 文件 数目 的 限制 。 传统 上 ， 
Shell 允许 你 直接 处 理 至 多 10 个 打开 文件 : 文件 描述 符 从 0 至 9 (POSIX 标准 将 是 否 可 
以 处 理 大 于 9 的 文件 描述 符 ， 保留 给 各 实现 自行 定义 。bash 可 以 ,但 ksh 则 否 )。 


文件 描述 符 0、1 与 2， 各 自 对 应 到 标准 输入 、 标 准 输出 以 及 标准 错误 输出 。 如 前 所 述 ， 
每 个 程序 都 是 从 附加 到 终端 的 这 些 文件 描述 符 开始 (不 管 是 真 的 终端 还 是 虚拟 终端 , 例 
如 X window)。 到 当前 为 止 ,最 常见 的 操作 便 是 变更 这 三 个 文件 描述 符 其 中 一 个 的 位 置 ， 
不 过 也 可 能 处 理 其 他 的 变动 。 首 先 来 看 的 是 : 将 程序 的 输出 传送 到 一 个 文件 , 并 将 其 错 
误 信息 传 到 另 一 个 文件 : 


make 1> results 2> ERRS 


上 面 的 命令 是 将 make ( 注 1) 的 标准 输出 (文件 描述 符 为 1) 传 给 results， 并 将 标准 
错误 输出 (文件 描述 符 为 2) 传 给 ERRS (make 不 会 知道 这 之 间 的 差异 ; 它 不 知道 也 不 
关心 ， 也 并 未 传送 输出 或 错误 信息 到 终端 )。 将 错误 信息 捕 所 在 一 个 单独 的 文件 里 是 一 
种 很 实用 的 做 法 ， 你 之 后 可 以 使 用 分 页 程序 查阅 它们 ， 或 使 用 编辑 器 修正 问题 。 否 则 ， 





注 1: make 程序 用 于 控制 原始 文件 重新 编译 为 目标 文件 (object file) 。 不 过 它 的 用 法 相当 多 ， 
要 了 解 更 多 信息 ， 可 参考 《Managing Projects with GNU make》 (O’Reilly)。 
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大 量 输出 的 错误 信息 会 快速 地 卷 过 屏幕 画面 , 你 会 很 难 找到 需要 的 信息 。 另 一 种 不 同 的 
方式 就 更 利落 了 ， 直 接 含 弃 错 误 信 息 ; 


make 1> results 2> /dev/null 
1> results 里 的 1 其 实 没有 必要 ， 供 输 出 重 定向 的 默认 文件 描述 符 是 标准 输出 : 也 就 
是 文件 描述 符 ls 下 个 例子 会 将 输出 与 错误 信息 送 给 相同 的 文件 :， 

make > results 2>&1 
重 定向 > results 让 文件 描述 符 1 (标准 输出 ) 作为 文件 results， 接 下 来 的 重 定 向 
2>&1 有 两 部 分 。2> 重 定向 文件 描述 符 2， 也 就 是 标准 错误 输出 。 而 &1 是 Shell 的 语法 : 
无 论文 件 描述 符 1 在 哪里 。 在 本 例 中 ,文件 描述 符 1 是 results 文 件 ， 所 以 那里 就 是 文 


件 描述 符 2 要 附加 的 地 方 。 需 特别 留意 的 一 点 是 : 在 命令 行 上 ， 这 4 个 字符 2>&1 必须 
连 在 一 起 ， 中 间 不 能 有 任何 空格 。 


在 此 ， 顺 序 格外 重要 : Shell 处 理 重 定向 时 ， 由 左 至 右 。 来 看 看 此 例 : 

make 2>&1 > results 
上 述 命令 ，Shell 会 先 传送 标准 错误 信息 到 文件 描述 符 1,， 这 是 仍 为 终端 然后 文件 描述 
符 1 (标准 输出 ) 被 改 为 results。 更 进一步 ，Shell 会 在 文件 描述 符 重 定向 之 前 处 理 管 
道 ， 使 我 们 得 以 将 标准 输出 与 标准 错误 输出 都 传递 到 相同 的 管道 : 

make 2>&1 | ...:: 


最 后 要 介绍 的 是 可 用 来 改变 Shell 本 身 1/0 设置 的 exec 命令 。 使 用 时 ， 如 果 只 有 1/O 重 
定向 而 没有 任何 参数 时 ，exec 会 改变 Shell 的 文件 描述 符 : 


‘exec 2> /tmp/$0.10g : 重 定向 Shel1 本 身 的 标准 错误 输出 
exec 3< /some/file 打开 新 文件 描述 符 3 | 
jdt name rank EE <&3 从 该 文件 读 取 


注意 : 重 定向 Shell 的 标准 错误 输出 的 第 一 个 示例 行 ， 应 该 只 用 于 脚本 中 。 交 互 式 Shel 会 在 标准 
错误 输出 上 显示 它们 的 提示 号 ， 所 以 如 果 你 交互 式 地 执行 此 命令 ， 就 看 不 到 提示 号 了 ! 如 
果 你 希望 取消 (undo) 标准 错误 输出 的 重 定向 ， 可 届 洁 如 吉 生 二 呈 一 个 灯光 伯 以 看 丹 克 年 


描述 符 。 例 如 : 
exec 5>&2 : ”把 原来 的 标准 错误 输出 保存 到 文件 描述 符 5 (fa5) 上 
exec 2> /tmp/S0.1og 重 定 向 标准 错误 输出 
yh 执行 各 种 操作 … 
. “exec 2>&5 将 原始 文件 复制 到 文件 描述 符 2 


exec 5>&- 关闭 文件 描述 符 5， 因 为 不 再 需要 了 
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GXeC 
exec [ program [ arguments ... ] ] 
用 途 网 总 
以 疡 的 程序 取代 Shell， 或 改变 Shell 本 身 的 IO 设置 。 
主要 选项 
无 
契 为 


搭配 参数 一 也 就 是 使 用 指定 的 程序 取代 Shell, 以 传递 参数 给 它 。 如 果 只 使 用 
LIO 重 定向 ， 则 会 改变 Shell 本 身 的 文件 描述 符 。 














搭配 上 参数 , exec 还 能 起 到 另 一 个 作用 , 即 在 当前 Shell 下 执行 指定 的 程序 。 换 名 话说， 
就 是 Shell 在 其 当前 进程 中 启动 新 程序 。 例 如 , 想 使 用 Shell 做 选项 处 理 但 大 部 分 工作 仍 
要 由 一 些 其 他 程序 来 完成 时 ， 你 可 以 用 这 个 方式 : 


while [ $# -gt 1 1] | 循环 遍历 参数 
do . a 
case $1 in 处 理 选项 
-£) # code for -f here 
-q) # code for -q here 
夺 交 break ;; 没有 选项 ， 中 断 循环 
esac -~ 人 
shift ”a 移 到 下 一 个 参数 
done 
exec real-app -q "$qargs" -f "Sfargs" "S$@" 执行 程序 
echo real-app failed, get help! 1>&2 紧急 信息 


使 用 此 法 了 时，exec 为 单 向 操作 。 人 也 就 是 说 : 控制 权 不 可 能 会 回 到 脚本 。 唯 一 的 例外 只 
有 在 新 程序 无 法 被 调用 时 。 在 该 情况 下 ， 我 们 会 希望 有 “紧急 ”代码 ， 可 显示 信息 ， 再 
完成 其 他 可 外 的 清除 工作 。 


7.4 printf 的 完整 介 
我 们 曾 在 2.5.4 节 中 介绍 过 printE 命令。 本 节 我 们 将 完整 地 介绍 
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注 
~ 
协 








printf 命令 的 完整 语法 有 两 个 部 分 : 


Printf format-string [arguments...] 


第 一 个 部 分 为 描述 格式 规格 的 字符 串 ， 它 的 最 佳 提供 方式 是 放 在 引号 内 的 字符 串 常 数 。 
第 二 个 部 分 为 参数 列表 ， 例 如 字符 串 或 变量 值 的 列表 ,该 列表 需 与 格式 规格 相对 应 。 格 
式 人 字符 审结 合 要 以 字面 意义 输出 的 文本 , 它 使 用 的 规格 是 描述 如 何在 printf 命 令 行 上 
格式 化 一 连 串 的 参数 。 一 般 字符 都 按照 字面 上 的 意义 输出 。 转 义 序列 会 被 解释 (与 echo 
相似 )， 然 后 输出 为 相对 应 的 字符 。 格 式 指示 符 (format specifier) 是 以 % 字 符 开头 且 
由 已 定义 的 字母 集 之 一 作为 结尾 ， 用 来 控制 接 下 来 相对 应 参数 的 输出 。printf 的 转 义 
序列 见 表 7-1。 





~ printf 

否 法 . a 
printf .format [ string ... ] 

用 途 | 8 
为 了 从 Shell 脚本 中 产生 输出 。 由 于 Printf 的 行为 是 由 POSIX 标准 所 定义 ， 
因此 使 用 printf 的 脚本 比 使 用 echo 更 具 可 移植 性 。 
主要 选项 
无 
| printf 使 用 format 字符 串 控制 输出 。 字 符 囊 里 的 纯 字 符 都 如 实 打 印 。 echo 
| 的 转 义 序列 会 被 解释 。 和 包括 名 与 一 个 字母 的 格式 指示 符 (Format specifier) ， 
| 用 来 指示 相对 应 的 参数 字符 囊 的 格式 化 ， 详 见 内 文 介绍 。 











表 7-1， printf 的 转 义 序列 


序列 说 明 

\a ， “警告 字符 ,通常 为 ASCII 的 BEL 字符 

\b :后退 ma 

\c 抑制 (不 显示 ) 输出 结果 中 任何 结尾 的 换行 字符 “， 而 且 ， 任 何 留 在 参数 里 的 


字符 、 任 何 接 下 来 的 参数 以 及 任何 留 在 格式 字符 串 中 的 字符 ， 人 
\f 换 页 (formfeed ) 


\n 换行 
\r 回 车 (Carriage return ) 
\t 水 平 制 表 符 
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表 7-1: printf 的 转 义 序列 ( 续 ) 


序列 说 明 
\v 垂直 制 表 符 
\\ 一 个 字面 上 的 反 斜 杠 字符 


\daa 表示 1 到 3 位 数 八进制 值 的 字符 。 仅 在 格式 字符 串 中 有 效 
\0aaa 表示 1 到 3 位 的 八进制 值 字符 
注 : 只 在 %b 格 式 指 示 符 控制 下 的 参数 字符 事 中 有 效 。 


printf 对 转 义 序列 的 处 理 可 能 会 让 人 觉得 混淆 。 默认 情况 下 , 转 义 序列 只 在 格式 字符 
串 中 会 被 特别 对 待 ， 也 就 是 说 ， 出 现在 参数 字符 串 里 的 转 义 序列 不 会 被 解释 : 


$ printf "a string, no processing: <%s>\n" "A\nB" 
a string, no processing: <A\nB> 


当 你 使 用 $b 格式 指示 符 时 ，printf 会 解释 参数 字符 串 里 的 转 义 序列 ， 


$ printf "a string, with processing: <%b>\n" "A\nB" 
a string, with processing: <A 
B> 


无 论 是 在 格式 字符 串 内 还 是 在 使 用 sb 所 打印 的 参数 字符 串 里 ， 大 部 分 的 转 义 序列 都 是 
被 相同 对 待 (如 表 7-1 所 示 )。 无 论 如 何 ，\c 与 \0ddd 只 有 搭配 $b 使 用 才 有 效 , 而 \aaa 
只 有 在 格式 字符 串 里 才 会 被 解释 。 


现在 应 大 致 可 以 作 结 论 ， 格 式 指示 符 为 printf 提 供 了 强大 的 功能 和 灵活 性 。 格 式 规格 
字母 请 见 表 7-2。 


表 7-2: printf 格式 指示 符 


项 目 说 明 
$b 相对 应 的 参数 被 视 为 含有 要 被 处 理 的 转 义 序列 之 字符 串 。 见 表 7-1 
gc ASCII 字符。 显示 相对 应 参数 的 第 一 个 字符 

SQ, $i 十 进 制 整数 

$e 浮 点 格式 : ([-]a.precisione [+-]ad) 

SE 浮 点 格式 ([-]d. precisionE [+-]dd) 

%f 浮 点 格式 ([-]add.precision) 

gg se 或 sf 转换， 看 哪 一 个 较 短 ， 则 删除 结尾 的 堆 

g%G %E 或 $f 转换， 看 哪 一 个 较 短 ， 则 删除 结尾 的 零 

%0O 不 带 正 负 号 的 八进制 值 
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表 7-2: printf 格式 指示 符 ( 续 ) 





项 目 说明 溉 闪 
$s 字符 串 

Su 不 带 正 负 号 的 十 进 制 值 

SX 不 带 正 负 号 的 十 六 进 制 值 。 使 用 a 至 王 表示 10 至 1 

SX 不 带 正 负 号 的 十 六 进 制 值 。 使 用 A 至 F 表 示 10 至 15 

名 多 字面 意义 的 $ 








根据 POSIX 标准: 浮 点 格式 Se、SE、%f、%g 与 %G 是 “不 需要 被 支持 ”。… 这 是 因为 awk 
支持 浮 点 算数 运算 , 且 有 它 自己 的 printf 语 句 。 这 样 , Sheli 程 序 中 需要 将 浮 点 数值 进 
行 格式 化 的 打印 时 ， 可 使 用 小 型 awk 程序 实现 。 然而 ， 内 建 于 bash、ksh93 和 zsh 中 

a 

printE 命 令 可 用 来 指定 输出 字段 的 宽度 以 及 进行 对 齐 操作 。 为 实现 此 目的 ， 接 在 # 后 

面 的 格式 表达 式 可 采用 三 个 可 选用 的 修饰 符 (modifier) 以 及 前 置 的 格式 指示 符 (format 

specifier). 


%flags wiath. BrectaLon Format:: POON Ter 


输出 字段 的 wiath 为 数字 值 。 指定 字段 宽度 时 ， 字段 的 内 容 黑 认为 向 右 对 齐 ， 如 果 你 希 
望 文字 向 左 靠 , 必须 指定 -标志 。 这 样 ;"%- 20s" 会 在 一 个 有 20 个 字符 宽度 的 字段 里 ， 
输出 一 个 向 左 对 齐 的 字符 串 。 如 果 字 符 串 少 于 20 个 字符 , 则 字段 将 以 空白 填 满 。 下面 的 
例子 里 ，1 是 输出 ， 以 表示 字段 的 实际 宽度 。 第 一 个 例子 为 向 右 对 齐 文字 ; … | 


$ printf "1%108[\nn hello 
] hellol 


下 一 个 例子 则 为 向 左 对 齐 文字 : 


$ printf "1%-10gl\n" hello 
[hello ] 


precision 修 饰 符 是 可 选用 的 。 对 十 进 制 或 浮 点 数值 而 言 , 它 可 以 控制 数字 出 现 于 结果 
中 的 位 数 。 对 字符 串 值 而 言 , 它 控制 将 要 打印 的 字符 串 的 最 大 字符 数 。 具体 的 含义 会 因 
格式 指示 符 而 有 不 同 ， 见 表 7-3。 

表 7-3: 精度 的 意义 

转换 1 丧 居 洛 入 a 


Sd, %i, %SO, PSu, PSX, %X 加 训 打 印 的 最 小 位 数 。 当 值 的 位 数 少 于 此 数字 时 ， 会 在 前 面 补 
零 。 默 认 精 度 (precision) 为 1 : 
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表 7-3: 精度 的 意义 ( 续 ) 





转换 和 精度 含义 > es i 
Se, 8 了 要 打印 的 最 小 位 数 。 当 值 的 位 数 少 于 此 数字 时 , 会 在 小 数 点 
后 面 补 零 ， 软 认 精 度 为 6。 精 度 为 0 则 表示 不 显示 小 数 点 
Sf 小 数 点 右边 的 位 数 
%g, %G 有 效 位 数 (significant digit) 的 最 大 数目 
%S ， 要 打印 字符 的 最 大 数目 
下 面 是 儿 个 精度 的 例子 : 
$ printf "%.5d\n” 15 
00015 


$ printf "%.10g\n" "a very long string" 
a very lon 

$ printf "%.2f\n" 123.4567 

123.46 


C 函数 库 的 printf () 函数 允许 通过 参数 列表 里 的 额外 数值 动态 地 指定 宽度 及 精度 。 
POSIX 标 准 不 支持 此 功能 , 相反 地 , 它 会 建议 你 在 格式 字符 串 里 使 用 Shell 变 量 值 ( 注 2)。 
举例 如 下 : 时。 

$ width=5 .prec=6 myvar=42.123456 

$ printf "|%$ {width} . ${prec}Gl \n” $myvar POSIX 

142.12351| 


S printf "|%*. wGj va 5 6 Sn ksh93 与 bash 
142.1235|] 


最 后 要 介绍 的 是 : 在 字段 宽度 与 精度 前 放置 一 个 或 多 个 标志 的 用 法 。 我 们 已 介绍 过 使 用 
- 标志 可 以 让 字符 串 向 左 对 齐 。 完 整 的 标志 列表 如 表 7-4 所 示 。。 


表 7-4: a 


SR a 

将 字段 里 已 格式 化 的 值 向 左 对 齐 。 

空白 (space) ”在 正 值 前 置 一 个 空格 ， 在 负 值 前 置 一 个 负 号 。 

+ 总 是 在 数值 之 前 放置 一 个 正 号 或 负 号 ， 即 便 是 正 值 也 是 。 

” ”下 列 形式 选择 其 一 : se 有 一 个 前 置 的 0，8%x 与 8%X 分 别 有 前 置 的 Ox 与 OX。 
%e、% 与 %f 总 是 在 结果 中 有 一 个 小 数 点 ，%9g 与 $6 为 没有 结尾 的 零 。 
0 以 等 填补 输出 , 而 非 空 白 。 这 仅 发 生 在 字段 宽 度 大 于 转换 后 的 情况 下 。 在 C 


语言 里 ， 该 标志 应 用 到 所 有 输出 格式 ， 即 使 是 非 数字 的 值 也 一 样 。 对 于 
printf 命令 而 言 ， 它 仅 应 用 到 数值 格式 。 











注 2: 某 些 PrintE 版 本 ， 例 如 ksh93 与 bash 下 的 有 版本， 确实 支持 动态 的 宽度 与 精度 指定 
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再 举例 说 明 : 
$ printf "|%-10s| |%10s|\n" hello world ”字符 串 向 左 、 向 右 对 齐 
Ihello | | worldl 
$ printf "I% dl 1% dl\n" 15 -15 空白 标志 
| 15| 1-151 
$ printf "%+d %+d\n" 15 -15 + 标志 
+15 -15 
$ printf "%x %#x\n" 15 15 # 标志 
上 Oxf 
$ printf "%05d\n" 15 0 标志 
00015 


对 于 转换 指示 符 $b、%c 与 ss 而 言 ， 相对 应 的 参数 都 视 为 字符 串 。 否 则 , 它们 会 被 解释 
为 C 语 言 的 数字 常数 (开头 的 0 为 八进制 ， 以 及 开头 的 0x 与 0X 为 十 六 进 制 ) 。 更 进 一 
步 来 说 , 如 果 参 数 的 第 一 个 字符 为 单 引号 或 双 引 号 , 则 相对 应 的 数值 是 字符 串 的 第 二 个 
字符 的 ASCII 值 ; 

$ printf "%s is %d\n" a "'a" 

a is 97 
当 参数 多 于 格式 指示 符 时 , 格式 指示 符 会 根据 需要 再 利用 。 这 种 做 法 在 参数 列表 长 度 未 
知 时 是 很 方便 的 ， 例 如 来 自 通配符 表达 式 。 如 果 留 在 格式 (format) 字符 串 里 剩 下 的 指 
示 符 比 参数 多 时 ， 如 果 是 数值 转换 ， 则 遗漏 的 值 会 被 看 成 是 零 ， 如 果 是 字符 串 转换 ， 则 
被 视 为 空 字符 串 (虽然 可 以 这 么 用 , 但 比较 好 的 方式 应 该 是 确认 你 提供 的 参数 数目 , 与 
格式 字符 串 所 预期 的 数目 是 一 样 的 ) 。 如 果 Print 无 法 进行 格式 的 转换 ， 它 便 会 返回 
一 个 非 零 的 退出 状态 。 | 


7.5 ”波浪 号 展开 与 通配符 
Shell 有 两 种 与 文件 名 相关 的 展开 。 第 一 个 是 波浪 号 展开 (tilde expansion) ， 另 一 个 则 


有 很 多 种 叫 法 ， 有 人 称 之 为 通配符 展开 式 (wildcard expansion) ， 有 人 则 称 之 为 全 局 展 
开 (globbing) 或 是 路 径 展 开 (pathname expansion ) 。 | 


7.5.1 ”波浪 号 展开 
如 果 命 令 行 字符 串 的 第 一 个 字符 为 波浪 号 (~), 或 者 变量 指定 (例如 PATH 或 CDPATH 
变量 ) 的 值 里 任何 未 被 引号 括 起 来 的 冒号 之 后 的 第 一 个 字符 为 波浪 号 (~) 时，Shell 便 
会 执行 波浪 号 展开 。 
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波浪 号 展开 的 目的 , 是 要 将 用 户 根 目录 的 符号 型 表示 方式 , 改 为 实际 的 目录 路 径 。 可 以 
采用 直接 或 间接 的 方式 指定 执行 此 程序 的 用 户 ， 如 未 明白 指定 ， 则 为 当前 的 用 户 ， 


$ vi ~/.profile 与 vi $HOME/ .profile 相同 
$ vi ~tolstoy/ .profile 编辑 用 户 tolstoy 的 .profile 文件 


以 第 一 个 例子 来 看 , Shell 将 ~ 换 成 SHOME, 也 就 是 当前 用 户 的 根 目 录 。 第 二 个 例子 , 则 
是 Shell 在 系统 的 密码 数据 库 里 ,寻找 用 户 tolstoy, 再 将 ~tolstoy 置换 为 tolstoy 
的 根 目录 。 





注意 ， 波 浪 号 展开 最 先是 出 现 于 Berkeley C Shell 一 csh 中。 主要 是 交互 式 功能 。 事实 证明 它 
的 确 很 受 欢 迎 ， 而 且 之 后 还 被 Korn Shell、bash 及 绝 大 多 数 现代 Bourne 形式 的 Shell 采纳 
成 为 自己 的 功能 。 因 此 POSIX 标准 里 也 说 明了 它 的 应 用 方式 。 


不 过 (总 是 有 “不 过 "), 有 许多 商用 UNIX 的 Bourne Shell 不 支持 它 。 因 此 , 如 果 你 对 Shell 
脚本 的 可 移植 性 有 所 要 求 ， 请 不 要 在 你 的 脚本 里 使 用 波浪 号 展开 。 








使 用 波浪 展开 有 两 个 好 处 。 第 一 ， 它 是 一 种 简洁 的 概念 表示 方式 ， 让 查阅 Shell 脚本 的 
人 更 清楚 脚本 在 做 的 事 。 第 二 ， 它 可 以 避免 在 程序 里 把 路 径 名 称 直接 编码 。 先 看 这 个 有 
本 片段 : 

printf "Enter username: * 显示 提示 信息 


read user 读 取 指 名 的 用 户 : 
vi /home/$user/.profile 编辑 该 用 户 的 .profile 文件 | 


前 面 的 程序 假设 所 有 用 户 的 根 目录 都 在 /home 之 下 。 如果 这 有 任何 变动 (例如 , 用 户 子 
目录 根据 部 门 存放 在 部 门 目录 的 子 目录 下 )， 那 么 这 个 脚本 就 得 重 写 。 但 如 果 使 用 波浪 
号 展开 ,就 能 避免 重 写 的 情况 : 


printf "Enter username: " 显示 提示 信息 
read user “ 读 取 指 名 的 用 户 


Vi ~$user/.profile 编辑 该 用 户 的 .profile 文 件 


这 人 么 一 来 ， 无 论 用 户 根 目录 在 哪里 ， 程 序 都 可 以 正常 运作 。 
许多 Shell 如 ksh88、ksh93、bash 与 zsh， 都 提供 额外 的 波浪 号 展开 ， 详 见 14.3.7 节 。 


7.5.2 ”使 用 通配符 
寻找 文件 名 里 的 特殊 字符 ， 也 是 Shell 提供 的 服务 之 一 。 当 它 找到 这 类 字符 时 ， 会 将 它 
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们 视 为 要 匹配 的 模式 , 也 就 是 , 一 组 文件 的 规格 ;它们 的 文件 名 称 都 匹配 于 其 个 给 定 的 
模式 。Shell 会 将 命令 行 土 的 模式 ， 置 换 为 符合 模式 的 一 组 排序 过 的 文件 名 《 注 3)。 


如 果 接 触 过 MS-DOS 下 的 简单 命令 行 环境 , 你 可 能 会 觉得 * . * 这 样 的 通配符 很 熟悉 它 
指 的 是 当前 目录 下 的 所 有 文件 名 。UNIX Shell 的 通配符 也 类 似 ， 只 不 过 功能 更 强大 。 基 
本 的 通配符 见 表 7-5 所 示 。 


表 7-5: 基本 的 通 而 配 符 

通配符 匹配 
任何 的 单一 字符 。 

x | 任何 的 字符 字符 串 。 

[ set] 任何 在 set 里 的 字符 。 
[!get] ”任何 不 在 es 





?通配符 匹配 于 任何 的 单一 字符 ， 所 以 如 果 你 的 目录 里 含有 whizprog.c、whizprog. 
log 与 whizprog.o 这 三 个 文件 ， 与 表达 式 whizprog.. ?匹配 的 为 whizprog.c 与 
whizprog.o， 但 whizprog. .log 则 不 匹配 。 


星 号 (* ) 是 一 个 功 角 E 强 大 而 且 广 为 使 用 的 通配符 ， 它 匹配 于 任何 字符 组 成 的 字符 串 。 表 


达 式 whizprog.* 符 合 前 面 列 出 的 所 有 三 个 文件 ;网 页 设计 人 员 也 可 以 使 用 * .html 表 
达 式 匹配 他 们 的 输入 文件 。 





注意 ，MS-DOS、MS-Windows 与 OpenVMS 用 户 要 注意 的 是 ， ee (.) 并 没 
有 任何 特殊 之 处 . (除了 文件 名 开头 的 点 号 表示 隐藏 文件 外 )， 只 是 一 个 字符 而 已 。 例 
如 : ls * 会 列 出 在 当前 目录 下 的 所 有 文件 ， eg 样 使 用 *。*。 





剩 下 的 通配符 就 是 se! 结构 了 。set 是 一 组 字符 列表 (例如 abc)、 一 段 内 含 的 范围 ( 例 
如 a-z), 或 者 是 这 两 者 的 结合 。 如 果 希 望 破 折 号 (dash) 也 是 列表 的 一 部 分 , 只 要 把 它 
放 在 第 一 个 或 最 后 一 个 就 可 以 了 。 表 7-6 (假定 在 ASCII 环境 下 ) 有 更 详尽 的 解释 。 





注 3: 由 于 目录 里 的 文件 未 按照 次 序 排列 ,因此 Shell 会 排序 每 个 通 配 案 待 展开 后 的 结果 。 在 部 
分 系统 上 ， 会 根据 适合 于 系统 的 位 置 而 排序 ， 但 各 个 机 器 底层 的 整理 顺序 各 有 不 同 。 
UNIX 传统 主义 者 可 能 会 用 export LC_ALL-C 设 置 他 们 习惯 的 行为 模式 。 这 在 先前 的 
2.8 节 已 讨论 过 。 
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表 7-6: 使 用 set 结构 的 通配符 


表达 式 匹配 的 单一 字符 

[abc] a、b 或 c 

[ead 句点 、 逗 点 ,或 分 号 
[-_] 破 折 号 或 下 划 线 

[a-c] a、b 或 c 

[a-z] 任何 一 个 小 写字 母 
[10-9] 任何 一 个 非 数 字 字 符 
[0-911 任何 一 个 数字 或 惊叹 号 
[a-zR-2Z] 任何 一 个 小 写 或 大 写字 母 


[a-zA-20-9_-] 任何 一 个 字母 、 任 何 一 个 数字 、 下 划 线 或 破 折 号 


在 原来 的 通配符 范例 中 , whizprog. [co] 与 whizprog.[a-z] 两 者 都 匹配 whizprog.c 
与 whizprog.o, 但 whizprog.1log 则 不 匹配 。 


在 左 方 括号 之 后 的 惊叹 号 用 来 “否定 ”一 个 set。 例 如 [!.;] 符 合 句 点 与 分 号 以 外 的 任 
何 一 个 字符 ; [1a-zA-Z] 符合 任何 一 个 非 字母 的 字符 。 


范围 表示 法 固然 方便 , 但 你 不 应 该 对 包含 在 范围 内 的 字符 有 太 多 的 假设 。 比 较 安全 的 方 
式 是 : 分 别 指定 所 有 大 写字 母 、 小 写字 母 、 数 字 , 或 任意 的 子 范围 (例如 [f-ql [2-6])。 
不 要 想 在 标点 符号 字符 上 指定 范围 , 或 是 在 混用 字母 大 小 写 上 使 用 , 像 [a-2] 与 [A-z] 
这 样 的 用 法 , 都 不 保证 一 定 能 确切 地 匹配 出 包括 所 有 想 要 的 字母 , 而 没有 其 他 不 想 要 的 
字符 。 更 大 的 问题 是 在 于 : 这 样 的 范围 在 不 同类 型 的 计算 机 之 间 无 法 提供 完全 的 可 移植 
性 。 


另 一 个 问题 是 : 现行 系统 支持 各 种 不 同 的 系统 语言 环境 (locale), 用 来 描述 本 地 字符 集 
的 工作 方式 。 很 多 国家 的 默认 locale 字 符 集 与 纯粹 ASCII 的 字符 集 是 不 同 的 。 为 解决 这 
些 问题 , POSIX 标 准 提 出 了 方 括号 表达 式 (bracket expression) ， 用 来 表示 字母 、 数 字 、 
标点 符号 及 其 他 类 型 的 字符 ， 并 且 具 有 可 移植 性 ， 这 部 分 我 们 在 3.2.1.1 节 里 已 讨论 过 。 
在 正则 表达 式 下 的 方 括号 表达 式 里 也 出 现 相同 的 元 素 ,， 它们 可 被 用 在 兼容 POSIX 的 
Shell 内 的 Shell 通配符 模式 中 ， 不 过 你 仍 应 避免 将 其 应 用 在 需 可 移植 的 Shell 脚本 里 。 


习惯 上 , 当 执 行 通 配 符 展 开 时 ，UNIX Shell 会 忽略 文件 名 开头 为 一 个 点 号 的 文件 。 像 这 
样 的 “点 号 文件 (dot files)” 通常 用 做 程序 配置 文件 或 启动 文件 。 像 是 Shell 的 $HOME7 
.profile、ex/vi 编辑 器 的 $SHOME/ .exrc, 以 及 bash 与 gdb 使 用 的 GNU readline 
程序 库 的 $SHOME/ .inputrc。 
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要 看 到 这 类 文件 ， 需 在 模式 前 面 明确 地 提供 一 个 点 号 。 例 如 : 
echo .* 显示 隐藏 文件 
你 可 以 使 用 -a (显示 全 部 ) 选项 ， 让 1s 列 出 隐藏 文件 : 
$ ls -la 
total 4525 
drwxr-xr-xXx 39 tolstoy wheel 4096 Nov 19 14:44 . 
drwxr-xr-x 17 root root 1024 Aug 26 15:56 .. 
—IW--——-—--— 1 tolstoy wheel 32 Sep 9 17:14 .MCOP-random-seed 
-IrW------- 1 tolstoy wheel 306 Nov 18 22:52 .Xauthority 
-IW-r~--Ir-- 1 tolstoy wheel 142 Sep 19 1995 .XdGefaults 
-rwW-r--r--— 1 tolstoy wheel 767 Nov 18 16:20 .article 
-rwW-r--Ir-- 1 tolstoy wheel 158 Feb 14 2002 .aumixrc 
1 


tolstoy wheel 18828 Nov 19 11:35 .bash history 





注意 : 再 强调 一 次 ， 陷 藏 文件 只 是 个 习惯 用 法 。 在 用 户 明 面 的 软件 上 它 是 这 样 的 ， 但 核心 程序 
(kernel) 并 不 认为 开头 带 有 一 个 点 号 的 文件 与 其 他 文件 有 不 同 。 





7.6 ”命令 蔡 换 


命令 替换 (command substitution) 是 指 Shell 执行 命令 并 将 命令 替换 部 分 替换 为 执行 该 
命令 后 的 结果 。 这 听 起 来 有 点 绕 舌 ， 不 过 实际 上 相当 简单 。 


ee 第 一 -种 是 使 用 反 引号 一 一 或 称 重 音符 号 (`… ) 的 方式 , 将 要 
行 的 命令 框 起 来 ; | 
for i in ‘cd /old/code/dir ; echo *.c. 产生 0 


do 循环 处 
diff -c /old/codeVdir7/8， $31 | more a 


‘ done 


这 个 Shell 开始 执行 ca /old/code/dir ; echo.*.c， 产生 的 输出 结果 (文件 列表 ) 
接着 会 成 为 for 循环 里 所 使 用 的 列表 。 


反 引号 形式 长 入 以 来 一 直 是 供 命令 替换 使 用 的 方法 , 而 且 POSIX 也 支持 它 , 因此 许多 已 
存在 的 Shell 脚本 都 使 用 它 。 不 过 ， 所 有 最 简单 的 用 法 很 快 会 变 成 复杂 的 ， 特 别 是 内 幅 
的 命令 替换 及 使 用 双 引 号 时 ， 都 需要 小 心地 转 义 反 斜 杠 字符 : 


$ echo outer:'‘echo innerl \‘echo inner2\. innerl1. outer 
outer innerl inner2 inner1 outer 
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这 个 例子 举 得 有 点 牵强 ， 不 过 辽 正 说 明了 必须 使 用 反 引号 的 原因 。 命令 执行 顺序 如 下 : 


1. 执行 echo inner2, 其 输出 (为 单词 ijnner2) 会 放置 到 下 一 个 要 被 执行 的 命令 中 。 
2. ”执行 echo innerl inner2 inner1， 其 输出 (单词 inner1 inner2 inner1). 
会 放置 到 下 一 个 要 执行 的 命令 中 。 


3. ”最 后 , 执行 echo outer innerl inner2 innerl outer。 


使 用 双 引 号 ， 情 况 更 糟 : 


$ echo "outer +‘echo inner -\‘echo \"negsted quote\" here\ - inner‘+ outer"™ 
outer +inner -nested quote here- 了 outer 


为 了 更 清楚 明白 ， 我 们 使 用 负 号 括 住 内 部 的 命令 替换 ， 而 使 用 正 号 框 住 外 部 的 命令 替换 。 
简 而 言 之 ， 就 是 更 为 混乱 。 


由 于 使 用 寿 套 的 命令 替换 ， 有 或 没有 引号 ， 很 快 地 就 变 得 很 难 阅读 ， 所 以 POSIX Shell 
采用 Korn Shell 里 的 一 个 功能 。 不 用 反 引 号 的 用 法 ， 改 为 将 命令 括 在 $(...) 里 。 因 为 
这 种 架构 使 用 不 同 的 开始 定 界 符 与 结束 定 界 符 , 所 以 看 起 来 容易 多 了 。 以 先前 的 例子 来 
看 ， 使 用 新 语法 重 写 如 下 : 

$ echo outer $(echo innerl $(echo inner2) inner1) Qauter 

outer innerl inner2 jnner1 outer 


$ echo "outer +$(echo inner -$(echo “nested quote" here)- inner)+ outer" 
outer +inner -nested quote here- inner+ outer 


这 样 是 不 是 好 看 多 了 ? 不 过 要 特别 留意 的 是 : 内 嵌 的 双 引号 不 再 需要 转 义 。 这 种 风格 已 
广泛 建议 用 在 新 的 开发 上 ， 本 书 中 有 许多 范例 也 是 使 用 这 种 方法 。 


这 边 要 看 的 是 先前 介绍 过 , 使 用 for 循环 比较 不 同 的 两 个 目录 下 的 文件 版 本 , 以 新 语法 
重 写 如 下 : | 


for i in $(cd /old/code/dir ; echo *.c) 产生 /old/code/dir 下 的 文件 列表 


. do | 循环 处 理 
diff -c /old/code/dir/$i $i 旧版 本 与 新 版 本 相 比 较 
done | more 将 所 有 结果 经 过 分 页 程序 


这 里 不 同 之 处 在 于 使 用 $(...) 命令 替换 ， 以 及 将 “整个 ”循环 的 输出 , 通过 管道 (pipe) 
送 到 more 屏幕 分 页 程序 。 


7.6.1 为 head 命令 使 用 sed 


之 前 在 第 3 章 的 例 3-1 介绍 过 使 用 sed 的 head 命 令 来 显示 文件 的 前 n 行 。 真实 的 head 
命令 可 加 上 选项 ,以 指定 要 显示 多 少 行 , 例如 head ~n 10 /etc/passwqd, 传统 的 POSIX 
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版 本 之 前 的 head 可 指明 行 数 作为 选项 (例如 head -10 /etc/passwd) , 且 许 多 UNIX 
的 长 期 用 户 也 习惯 于 使 用 此 法 执行 head。 


使 用 命令 替换 与 sed, 我 们 对 Shell 脚本 稍 作 修 改 , 使 其 与 原始 head 版 本 的 工作 方式 相 
同 o 见 例 7-2。 


例 7-2: 使 用 sed 的 head 命令 的 脚本 ， 修订 版 


# head --- 打印 前 mn 行 
# 


# 语法 : head -N file 
count=$ (echo $1 | sed 's/^-//') # 截 去 前 置 的 负 号 
shift # 移出 $1 


sed ${count}q "$@" 


当 我 们 以 head -10 foo.xml 调用 这 个 脚本 时 ，sed 最 终 是 以 sed 10g foo.xml 被 
引用 。 


7.6.2 “创建 邮件 列表 


不 同 UNIX Shell 的 新 版 本 不 断 地 出 现 ， 而 且 分 散在 各 站 点 的 用 户 可 以 从 /etc/shells 
所 列 的 Shell 中 选择 自己 的 登录 Shell。 这 样 ， 如 果 以 email 通知 用 户 有 新 版 本 的 Shell 更 
新 且 已 安装 的 功能 ， 这 对 系统 管理 而 言 会 是 很 不 错 的 事 。 


为 了 实现 这 个 目的 ,我们 必须 先 以 登录 Shell 来 识别 用 户 ， 且 产生 邮件 列表 供 安装 程序 
用 来 公告 新 Shell 版 本 。 由 于 每 封 通知 信息 内 容 都 不 尽 相同 ， 我 们 也 不 是 要 建立 一 个 直 
接 传送 邮件 的 脚本 , 只 是 要 建立 一 个 可 用 来 寄 送 邮件 的 地 址 列表 。 邮 件 列表 格式 会 因 邮 
件 用 户 端 程序 而 有 所 不 同 ， 所 以 我 们 可 以 做 一 个 合理 的 假设 : 最 后 完成 的 ,只 是 一 个 以 
逗 点 分 隔 电 子 邮 件 地 址 的 列表 , 一 行 一 个 或 多 个 地 址 , 而 最 后 一 个 地 址 之 后 是 否 有 逗 点 
则 不 重要 。 


在 这 种 情况 下 ， 较 合理 的 方式 应 该 是 通过 密码 文件 处 理 ， 为 每 个 登录 Shell 建立 一 个 输 
出 文件 , 文件 中 每 一 行 的 用 户 名 称 都 以 逗 点 结束 。 这 里 是 我 们 曾 于 第 5 章 使 用 过 的 密码 
文件 : 


jones:*:32713:899:Adrian W. Jones/0SD211/555-0123:/home/jones:/bin/ksh 
dorothy:*:123:30:;Dorothy Gale/KNS321/555-0044:/home/dorothy:/bin/bash 
toto:*:1027:18:Toto Gale/KNS322/555-0045:/home/toto:;/bin/tcsh 
ben:*:301:10:Ben Franklin/O0SD212/555-0022.:/home/ben: /bin/bash 
jhancock:*:1457:57:John Hancock/SsIG435/555-0699:7/home/jhancock: /bin/bash 
betsy:*:110:20:Betsy Ross/BMD17/555-0033:/home/betsy:/bin/ksh 
tj:*:60:33:Thomas Jefferson/BMD19/555-0095:/home/tj:/bin/bash 
george:*:692:42:George Washington/BST999/555-0001:/home/george:/bin/tcsh 
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脚本 本 身 结合 了 变量 与 命令 替换 、 二 从 本 让 未 鸭 匡 本末 整个 脚本 执行 的 代码 不 到 
10 行 ! 见 例 7-3。 


例 7-3; 将 密码 文件 转换 为 Shell 邮寄 列表 
#1 /bin/sh J 
wd to mei lie 


# 
# 产生 使 用 特定 Shell 的 所 有 用 户 邮 和 寄 列 表 


井 


# 语法 : 

# ..passwd-to-mailing-list < /etc/passwd 

# ,YPpcat passwd | passwd-to-mailing~list . 

# niscat passwd.org dir [| passwd-to-mailing- list 


# 此 操作 或 许 有 些 过 度 小 心 ， 


rm -f /tmp/*.mailing-list 


# 从 标准 输入 读 取 : 


while IFS=: read user passwd uid gid name home Shell 


do 
. Shell=${Shell:-/bin/sh) # 空 的 Shell 字段 意 指 /bin/sh 
file=" /tmp/$ (echo $sShell | EER -e 'S;^/;;' -e ‘Ss;/;-;79') .mailing-list" 
.eaho $user, .>> $file : 人 : 
done . 


每 次 读 取 密码 文件 的 记录 时 ， 程 序 都 会 根据 Shell 的 文件 名 产生 文件 名 。sed 命令 会 册 
除 前 置 / 字符 ， 并 将 后 续 的 每 个 / 改 成 连 字号 。 这 段 脚 本 会 建立 /tmp/bin:bash. 
mailing-1ist .这 样 形式 的 文件 名 。 每 个 用 户 的 名 称 与 结 才 尾 的 逗 点 都 通过 >> 附 加 到 特 
定 的 文件 中 。 执 行 这 个 脚本 后 ， 会 得 到 以 下 结果 : 

$ cat /tmp/bin-bash.mailing- dt 

dorothy, 

ben, 

jhancock, 

tj, . 

. $ cat. /tmp/bin-tcsh.mailing-1ligst 

toto, 

george, 

$ cat /tmp/bin-ksh.mailing-list 

potey, 


我 们 可 以 让 这 个 建立 邮件 列表 的 程序 训 更 广泛 地 应 用 。 例 如 , :如 果 系 统 的 进程 统计 
(process accounting) 是 打开 的 ,要 为 系统 里 的 每 个 程序 做 一 份 邮件 列表 就 很 容易 了 , 只 
要 从 进程 统计 记录 中 取出 程序 名 称 和 执行 过 程序 的 用 户 姓 名 即 可 -注意 , 访问 统计 文件 
必须 拥有 root 权限 。 每 个 厂商 提供 的 统计 软件 都 不 一 样 ， 不 过 它们 累积 的 数据 的 种 类 
都 差不多 ， 所 以 只 要 稍 作 微 调 即 可 。GNU 的 统计 摘要 工具 : sa ( 见 sa(8) 手 册页 ) 可 产 
生 类 似 下 面 这 样 的 报告 ; 
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# sa -u 


jones 0.01 cpu 377k mem 0 io gcc 


也 就 是 说 , 我 们 有 一 个 以 空白 隔 开 的 字段 , 第 一 个 字段 为 用 户 名 称 而 且 最 后 一 个 字段 为 
程序 名 称 。 这 让 我 们 可 以 简单 地 过 滤 该 输出 , 使 其 看 起 来 像 是 密码 文件 数据 类 型 ,再 将 
其 通过 管道 传递 给 我 们 的 邮件 列表 程序 来 处 理 : 


sa -u | awk '{ print $1 ?i::::::" $8 }' | sort -u | passwd-to-mailing-list 


(sort 命令 是 用 来 排序 数据 ，-u 选项 则 删除 重复 的 行 。) 这 个 UNIX 过 滤 程 序 与 管道 以 
及 简单 的 数据 标记 , 最 漂亮 的 地 方 就 在 于 简洁 。 我们 不必 编写 新 的 邮件 列表 产生 程序 来 
处 理 统计 数据 : 只 需 一 个 简单 的 awk 步骤 以 及 一 个 sort， 就 可 以 让 数据 看 起 来 就 像 我 
们 可 以 处 理 的 那样 ! 


7.6.3 简易 数学 : expr 


expr 命 令 是 UNIX 命 令 里 少数 几 个 设计 的 不 是 那么 严谨 又 很 难 用 的 一 个 。 虽 经 过 POSIX 
标准 化 , 但 我 们 非常 不 希望 你 在 新 程序 里 使 用 它 , 因为 还 有 更 多 其 他 程序 与 工具 做 得 比 
它 更 好 。 在 Shell 脚 本 的 编写 上 ,expr 主 要 用 于 Shell 的 算术 运算 , 所 以 我 们 把 重点 放 这 
就 好 。 如 果 你 真有 那么 强 的 求知 欲 ， 可 以 参考 expr(1) 的 手册 页 了 解 更 详尽 的 使 用 方法 。 


expr 的 语法 很 麻烦 : 运算 数 与 运算 符 必 须 是 单个 的 命令 行 参数 ， 因 此 我 们 建议 你 在 这 
里 大 量 使 用 空格 间隔 它 们 。 人 所 以 必须 
谨慎 使 用 引号 。 


expr 被 设置 用 在 命令 替换 之 内 。 这 样 ， 它 会 通过 打印 的 方式 把 值 返 回 到 标准 输出 ， 而 
并 非 通过 使 用 退出 码 (也 就 是 Shell 内 的 ye 


表 7-7 列 出 expr 中 优先 级 由 小 至 大 的 运算 符 。 我 们 将 优先 级 相同 的 运算 符 组 在 一 起 。 
表 7-7: expr 运算 符 








el | e2 如 果 el 是 非 零 值 或 非 null， 则 使 用 它 的 值 。 否 则 如 果 e2 是非 零 值 或 非 
| -null, : 则 使 用 它 的 值 。 如 果 两 者 都 不 是 ， 则 最 后 值 为 零 。 

el & e2 ”… 如果 el 与 e2 都 非 零 值 或 非 null, 则 返回 el 的 值 。 否 则 ， 最 后 值 为 零 。 

el = e2 等 于 。 

el != e2 不 等 于 。 

el < e2 | 小 于 。 
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表 7-7: expr 运算 符 ( 续 ) 


表达 式 ,es a 在 

el <= e2 小 于 或 等 于 。 

el > e2 类 于 5 

el >= e2 大 于 或 等 于 。 
这 些 运算 符 ， 如 果 指 示 的 比较 为 真 ， 则 会 使 得 expr 显示 1， 否则 显示 
0。 如 果 两 个 运算 数 都 为 整数 ， 则 以 数字 方式 比较 ， 如果 不 是 ， 则 以 字 
符 串 方 式 比较 。 

el + e2 el 与 e2 的 加 总 。 

el - e2 el 与 e2 的 相差 。 

el * e2 el 与 e2 的 相 乘 结果 。 

el / e2 el 除 以 e2 后 的 整数 结果 (截断 )。 

el % e2 el 除 以 e2 后 的 余数 (截断 )。 

el : e2 el 与 e2 的 BRE 匹配 ， 详 见 expr(1) 的 手册 页 。 

( expression ) ”表达 式 expression 的 值 ， 用 于 分 组 ， 大 部 分 程序 语言 里 都 看 得 到 。 

integer 一 个 只 包含 数字 的 数目 ， 人 允许 前 置 负 号 ， 但 却 不 支持 一 元 的 正 号 。 

string 字符 串 值 ， 不 允许 被 误 用 为 数字 或 运算 符 。 

在 新 的 代码 里 , 你 可 以 使 用 test 或 $((...)) 进 行 这 里 的 所 有 运算 。 正 则 表达 式 的 匹 


配 与 提取 ， 也 可 搭配 sed 或 是 Shell 的 case 语 句 来 完成 。 
这 里 有 一 个 简单 算术 运算 的 例子 。 在 真实 的 脚本 里 ， 循 环 体会 做 一 些 较 有 意义 的 操作 ， 


而 不 只 是 把 循环 变量 的 值 显示 出 来 : 
$ i=1 初始 化 计数 器 
$ while [ "$i" -le 5] 循环 测试 
> do ; 
> echo 1 is $i 循环 体 : 真正 的 代码 在 此 
> ic=`expr $i +1、 循环 计数 器 增值 
> done 
i is 1 
生生 过 
" 0- 沪 
i is 4 
二 号 二 
$ echo $1 ” 显示 最 后 结果 
6 。 


这 类 的 算术 运算 , 已 经 给 出 了 你 可 能 遇 到 的 expr 的 使 用 方式 的 99%。 我 们 故意 在 这 里 
使 用 test (别名 用 法 为 [...]) 以 及 反 引 号 的 命令 替换 ， 因 为 这 是 expr 的 传统 用 法 。 
在 新 的 代码 里 ， 使 用 Shell 的 内 建 算术 替换 应 该 会 更 好 : 
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$ i=1 初始 化 计数 器 
$ while [ "$i" -le 5 ] 循环 测试 
> do 
> echo i ie $i 循环 体 : 真正 的 代码 在 此 
> i=$((i + 1)) 循环 计数 器 增值 4 
> done 
了 村 
i is 2 
i is 3 
1 is 4 

iis5 , | 
$ echo $1 显示 最 后 的 值 


无 论 expr 的 价值 如 何 ， 它 支持 32 位 的 算术 运算 ， 也 支持 64 位 的 算术 运算 一 一 在 很 
多 系统 上 都 可 以 ， 因 此 ， 几 乎 不 会 有 计数 器 溢出 (overflow) 的 问题 。 


7.7 引用 


_ 引用 (quoting) 是 用 来 防止 Shell 将 某 些 你 想 要 的 东西 解释 成 不 同 的 意义 。 举 例 来 说 ， 
如 果 你 要 命令 接受 含有 meta 字符 的 参数 ， 如 * 或 ?， 就 必须 将 这 些 meta 字符 用 引号 引 
用 起 来 。 或 更 典型 的 情况 是 : 你 希望 将 某 些 可 能 被 Shell 视 为 个 别 参数 的 东西 保持 为 单 
个 参数 ， 这 时 你 就 必须 将 其 引用 。 这 里 是 三 种 引用 的 方式 : 


字符 前 置 反 斜 杠 (\)， 用 来 告知 Shell 该 字符 即 为 其 字面 上 的 意义 。 这 是 引用 单一 
字符 最 简单 的 方式 : 


-SS echo here ie a real gtar: \* and a real question mark: \? 
here is a real star: * and a real question mark: ? 


单 引 号 
单 引号 ('...') 强制 Shell 将 一 对 引号 之 间 的 所 有 字符 都 看 作 其 字面 上 的 意义 。 
-Shell 脚本 会 删除 这 两 个 引号 ， 只 单独 留 下 被 括 起 来 的 完整 文字 内 容 : 


$ echo ‘here are gome metacharacteze: * ? [abc] ~ $ \' 
here are some metacharacters: * ? [abc] ` $ \ 


不 可 以 在 一 个 单 引 号 引用 的 字符 串 里 再 内 髓 一 个 单 引 号 。 即 便 是 反 斜 杠 , 在 单 引号 
里 也 没有 特殊 意义 ( 某 些 系统 里 , 像 echo 'A\tB' 这 样 的 命令 看 起 来 像 是 Shell 特 
别 地 处 理 反 斜 杠 ， 其 实 不 然 , 这 是 echo 命令 本 身 有 特殊 的 处 理 方式 , 详 见 表 2-2) 。 
如 需 混用 单 引 号 与 双 引 号 ,你 可 以 小 心地 使 用 反 斜 杠 转 义 以 及 不 同 引 用 字符 串 的 连 
接 来 做 到 ; 


$ echo 'He gaid, "How'\''g trickeg?"! 
‘He said, "How's tricks?”" . 
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$ echo "She replied, \"Movin' along\"" 
She replied, "Movin’ along”. 


不 管 你 怎么 处 理 ， 这 种 结合 方式 永远 是 很 难 读 阅读 的 。 

双 引 号 i 和 

es ") 就 像 单 引号 那样 。 将 括 起 来 的 文字 视 为 单一 字符 所。 只 不 过 ， 双 
会 确切 地 处 理 括 起 来 文字 中 的 转 义 字符 和 变量 、 算 术 、 命 令 等 换 


$ X="I am Xx" 
$ echo "NSX is Na $x\" 。Here is some output: 18(echo Hello Ta) 中 
$x is "I am x". Here is Some output:: 'Hello World’ 


在 双 引 号 里 ， 字符 $、"、` 与 \, 如 需 用 到 字面 上 的 章 义 ,都 必须 前 前 \。 任 何其 他 
字符 前 面 的 反 鲜 杠 是 不 带 有 特殊 意义 的 。 2 newline 会 完全 地 被 出 除 ， 就 好 像 
是 用 在 脚本 的 正文 中 一 样 。 


请 注意 ， 如 范例 所 示 ， 单 引 呈 被 括 在 双 引 号 里 时 就 无 特殊 意义 了 ， 它们 不 必 成 对 ， 
也 无 须 转 义 。 


一 般 来 说 , 使 用 单 引 号 的 时 机 是 你 :希望 完全 不 处 理 的 地 方 。 否则 ， 当 你 希望 将 多 个 单词 
视 为 单一 字符 串 ， 但 又 需要 Shell 为 你 做 些 事情 的 时 候 ， 请 使 用 双 引 号 ， 例如 ， 将 一 个 
变量 值 与 另 一 个 变量 值 连接 在 一 起 ， 你 就 可 以 这 么 用 : 


oldvar="$oldvar Snewvar" 将 newvar 的 值 附加 到 olavar 变量 


7.8 ”执行 顺序 与 evah 

我 们 曾 提 到 过 的 各 类 展开 与 替换 都 以 定义 好 的 次 序 完成 .POSIX 标 准 更 提供 了 很 多 琐碎 
的 细节 。 在 这 里 ， 我 们 站 在 Shell 程序 设计 人 员 的 层面 来 看 这 些 必须 了 解 的 东西 。 这 里 
的 本 全 省 放 了 许多 小 细 有 :例如 复合 全 全 的 中 同 与 菏 属 ” 畦 珠 二 多 学 


Shell 从 标准 输入 或 脚本 中 读 取 的 每 一 行 称 为 管道 (pipeline) ; 它 包含 了 一 个 或 多 个 命令 
(command); 这 些 命令 被 零 或 多 个 管道 字符 (1 ) 隔 开 。 事实 上 还 有 很 多 特殊 符号 可 用 
来 分 隔 单个 的 命令 ; 分 号 (; 六 管道 (| )、&、 逻辑 AND (&g)， 还 有 逻辑 OR (11)。 
对 于 每 一 个 读 取 的 管道 ，Shell 都 会 将 命令 分 割 ， 为 管道 设置 TO， 并 且 对 每 一 个 命令 依 
次 执行 下 面 操作 ， 

1. 将 命令 分 割 成 token， 是 以 固定 的 一 组 meta 字 符 分 隔 ， 有 空格 、 制 表 字 符 、 换 行 字 
符 .;、(,)、<、>、 上 与 &。token 的 种 类 包括 单词 (word)、 关 键 字 (keyword )、 
输出 入 重 定向 器 ， 以 及 分 号 。 

这 是 微妙 的 ， 但 是 变量 、 命令 还 有 算术 替换 ， 都 可 以 在 Shell 执 行 token 认定 的 时 
候 被 执行 。 这 就 是 为 什么 先前 在 7.5.1 节 所 举 的 vi ~$user/ profile 例子 可 以 像 
预期 的 那样 工作 。- 
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检查 每 个 命令 的 第 一 个 token， 看 看 是 否 它 是 不 带 有 引号 或 反 斜 杠 的 关键 字 
(keyword)。 如 果 它 是 一 个 开放 的 关键 字 (if 与 其 他 控制 结构 的 开始 符号 ,如 {或 
0 则 这 个 命令 其 实 是 一 个 复合 命令 (compound command) 。Shell 为 复合 命令 进 
行内 部 的 设置 , 读 取 下 一 条 命令 , 并 再 次 启动 进程 。 如果 关键 字 非 复合 命令 的 开始 
符号 (例如 ， 它 是 控制 结构 的 中 间 部 分 , 像 then、else 或 do, 或 是 结尾 部 分 , 例 
如 fi、done 或 逻辑 运算 符 ),“ 则 Shell 会 发 出 语法 错误 的 信号 。 
将 每 个 命令 的 第 一 个 单词 与 别名 (alia) 列表 对 照 检查 。 如 果 匹 配 ， 它 便 代 替 别 名 
的 定义 ， 并 回 到 步骤 1; 否则， 进行 步骤 4 (别名 是 给 交互 式 Shell 使 用 ， 因 此 我 们 
在 这 里 不 谈 ) 。 回 到 步骤 上 ， 人 允许 让 关键 字 的 别名 被 定义 : 例如 alias aslongas= 
while or alias procedure=function,。 注意 ; Shell 不 会 执行 递归 (recursive) 
的 别名 展开 : 反而 当 别 名 展开 为 相同 的 命令 时 它 会 知道 ， 并 停止 潜在 的 递归 操作 。 
可 以 通过 引用 要 被 保护 的 单词 的 任何 部 分 而 禁止 别名 展开 。 
如 果 波 浪 号 (~ ) 字符 出 现在 单词 的 开头 处 ， 则 将 波浪 号 替换 成 用 户 的 根 目录 
($SHOME)。 将 ~user 替 换 成 usez 的 根 目录 。 


波浪 号 替换 (在 支持 此 功能 的 Shell 里 ) 会 发 生 在 下 面 的 位 置 ， 

。 ”在 命令 行 里 ， 作 为 单词 的 第 一 个 未 引用 字符 

。 在 变量 赋值 中 的 = 之 后 以 及 变量 赋值 中 的 任何 :之 后 

。 形式 $ftvariable op word} 的 变量 替换 里 的 word 部 分 

将 任何 开头 为 $ 符号 的 表达 式 ， 执 行 参数 (变量 ) 替换 。 

将 任何 形式 为 $(string) 或 `string` 的 表达 式 ， 执 行 命令 替换 。 

执行 形式 $( (string) ) 的 算术 表达 式 (arithmetic expression ) 。 

从 参数 、 命 令 与 算术 替换 中 取出 结果 行 的 部 分 ,再 一 次 将 它们 切 分 为 单词 。 这 次 它 
使 用 $IFS 里 的 字符 作为 定 界 符 , 而 不 是 使 用 步 难 1 的 那 组 meta 字符 。 


通常 , 在 IFS 里 连续 多 个 重复 的 输入 字符 是 作为 单一 定 界 符 , 这 是 你 所 期 待 的。 这 
只 有 对 空白 字符 (例如 空格 与 制 表 字符 ) 而 言 是 真 的 。 对 于 非 空 白字 符 , 则 不 是 这 
样 的 。 举 例 来 说 ， 当 读 取 以 冒号 分 隔 字 段 的 /etc/passwd 文 件 时 ， 两 个 连续 冒号 
所 界定 的 是 一 个 空 字段 : 

while IFS=: read name passwd uid gid fullname homedir Shell 

do 


done < asa 


对 于 *、?, 以 及 一 对 [.…] 的 任何 出 现 次 数 ， 部 执行 文件 名 生成 (filenams generation) 
的 操作 ， 也 就 是 通配符 展开 。 
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10， 使 用 第 一 个 单词 作为 一 个 命令 , 遵循 7.9 节 中 所 述 的 查找 次 序 ， 也 就 是 ， 先 作为 一 
个 特殊 的 内 建 命令 , 接着 是 作为 函数 , 然后 作为 一 般 的 内 建 命令 ,以 及 最 后 作为 查 
找 $PATH 找到 的 第 一 个 文件 。 | 


11， 在 完成 WO 重 定向 与 其 他 同类 型 事项 之 后 ， 执 行 命令 。 


如 图 7-1， 引 用 可 用 来 避 开 执行 程序 的 不 同 部 分 。eval 命令 可 让 你 再 经 过 一 次 这 一 流 
程 。 执 行 两 次 命令 行 的 处 理 ， 看 来 似 平 有 点 怪 , 不 过 这 却 是 相当 好 用 的 功能 : 它 让 你 纺 
写 一 个 脚本 ， 可 在 任务 中 建立 命令 字符 串 ， 再 将 它们 传递 给 Shell 执行 。 这 么 一 来 ， 你 
可 以 让 脚本 聪明 地 修改 它们 自己 执行 时 的 行为 (这 在 下 一 节 会 讨论 )。 





ER 


















这 
了 
TREE 








命令 参数 成 为 下 一 条 命令 


算术 表达 式 蔡 换 - 
展开 的 文本 进行 单词 分 害 ， 


RE 





命令 


EE 






图 7-1; 命令 行 处 理 中 的 步骤 


www.TopSage.com 


780 ， -第 7 章 





整个 步骤 顺序 如 图 7-1 所 示 ， 看 起 来 有 点 复杂 。 Re 每 一 个 步骤 都 是 在 
Shell 的 内 存 里 发 生 的 ;Shell 不 会 真 地 把 每 个 步骤 的 发 生 显示 给 你 看 。 所 以 ， 你 可 以 假 
想 这 是 我 们 偷窥 Shell 内 存 里 的 情况 ， 从 而 知道 每 个 阶段 的 命令 行 是 如 何 被 转换 的 。 我 
们 从 这 个 例子 开始 说 ， 


$ mkdir /tmp/x 建立 临时 性 目录 . 
$ ced /tmp/x 切换 到 该 目录 

$ touch £1 £2 : ， 建立 文件 .: 
$ f=f y="a b" 赋值 两 个 变量 

$ 


echo ~+/${f}[12] $y $(echo cmd subst) $((3 + 2)) > out 忙碌 的 命令 
上 述 的 执行 步 又 概要 如 下 : 


1. 命令 一 开始 会 根据 Shell 语法 而 分 割 为 token。 景 重要 的 一 点 是 : IO 重 定向 >out 
在 这 里 是 被 识别 的 ， de 流程 继续 处 理 下 面 这 行 ， 其 中 每 个 token 
的 范围 显示 于 命令 下 方 的 行 


echo ~+/${f}{12] $y $lecho cmd subst) $((3 + 2)) 
| 11 1--- 2 ---1 3 |1------ 4 ------ 上 3 罗 和 汪 着 


2. 检查 第 一 个 单词 (echo) 是 否 为 关键 字 , 例如 if 或 for。 在 这 里 不 是 ， 所 以 命令 
行 不 变 继续 处 理 。 _ 

3. ”检查 第 一 个 单词 (依然 是 echo) 是 否 为 别名 。 在 这 里 并 不 是 ， 所 以 命令 行 不 变 ， 
继续 往 下 处 理 。 

4. ”扫描 所 有 单词 是 否 需要 波浪 号 展开 。 0 
同 于 $PWD， 也 就 是 当前 的 目录 es token 2 将 被 修改 ， 处 
理 继续 如 下 : 了 


echo /tmp/x/${f}{12] $y $(echo cmd subst) $((3 + 2)) 
] 11 1----- 2 4 -~-~--- | 


5. 下 一 步 是 变量 展开 ，token 2 与 3 都 被 修改 。 这 会 产生 : 


echo /tmp/x/f[12}] a b $ {echo .cmaQ -subst) S((3 + 2)) 
| 11 1---- 2 ---] 131 1------ 4 ------ 本 


6. ”再 来 要 处 理 的 是 命令 替换 。 注 意 ， 这 里 可 递归 引用 列表 里 的 所 有 步骤 ! 在 此 例 中 ， 
因为 我 们 试图 让 所 有 的 东西 容易 理解 ， 因 此 命令 替换 修改 了 token 4， 结 果 如 下 : 


echo /tmp/x/f{12] a b.cmd subst S$S((3 + 2)) 
a MO ee | 131 ed ll 


7. ”现在 执 和 行 算术 赫 换 。 修改 的 是 token 5， 结果 是 : 


echo /tmp/x/f[121 a b cmd subst 5S: 
(I i I ee 


8. ”前 面 所 有 的 展开 产生 的 结果 ; 都 将 再 一 次 被 扫描 , 看 看 是 否 有 $IFS 字 符 。 如果 有 ， 
” ”一 则 它们 是 作为 分 隔 符 (separator), 产生 额外 的 单词 。 例如 ， 两 个 字 人 
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成 一 个 单词 , 但 展开 式 “a- 空格 -b”, 在 此 阶段 被 切 分 为 两 个 单词 ; a 与 b。 相 同 
方式 也 应 用 于 命令 替换 $ (echo cmd subst) 的 结果 上 。 先 前 的 token 3 变 成 了 
token 3 与 4。 先 前 的 token 4 则 成 了 token 5 与 6。 结 果 则 为 : | 


echo /tmp/x/f[12] a b cmd subst 5 
用 二 [| 和 


9 最 后 的 替换 阶段 是 通配符 展开 。token 2 变 成 了 token 2 与 3， 结 果 如 下 ， 


echo /tmp/x/f1 /tmp/x/f2 a b cmd subst 5 
111 1==2--| 1=~- 3--145 6 1718 


10. 这 时 ，Shell 已 经 准备 好 要 执行 最 后 的 命令 了 。 它 会 去 寻找 echo。 正 好 ksh93 与 
bash 里 的 echo 都 已 内 建 到 Shell 中 。 


11.” Shell 实际 执行 命令 。 首先 执行 >out 的 IO 重 定向 ， 再 调用 内 部 的 echo 版 本 ， 显 
示 最 后 的 参数 。 


这 是 最 后 的 结果 : 


$ cat out 
/tmp/x/f1 /tmp/x/f2 a b cmd subst 5 


7.8.1 ”eval 语句 


eval 语句 是 在 告知 Shell 取 出 eval 的 参数 , 并 再 执行 它们 一 次 , 使 它们 经 过 整个 命令 
行 的 处 理 步骤 。 这 里 有 个 例子 可 以 让 你 了 解 eval 究竟 是 什么 。 


eval 1s 会 传递 字符 串 1s 给 Shell 执行 ， 所 以 Shell 显示 当前 目录 下 的 文件 列表 。 这 个 
例子 太 简单 了 : 字符 串 1s 上 没有 东西 要 被 和 出 以 让 命令 和 处 理 两 个 步 。 所 以 我 们 
来 看 这 个 : 


listpage="ls | more" 
$listpage 


为 什么 Shell 会 把 1 与 more 看 作 1s 的 参数 ， 而 不 是 直接 产生 一 页 页 的 文件 列表 呢 ? 这 
是 由 于 在 Shell 执 行 变量 时 , 管道 字符 出 现在 步骤 5, 也 就 是 在 它 确实 寻找 管道 字符 之 后 
(在 步骤 1)。 变 量 的 展开 一 直 要 到 步骤 8 才 进 行 解 析 。 结 果 ，Shell 把 | 与 more 看 作 1s 
的 参数 ， 使 得 1s 会 试图 在 当前 目录 下 寻找 名 为 | 与 more 的 文件 ! 


现在 , 想 想 eval $listpage 取 。 在 Shell 到 达 最 后 一 步 时 , 会 执行 带 有 1s、1| 与 more 
参数 的 eval。 这 会 让 Shell 回 到 步骤 1 具有 一 行 包括 了 这 些 参数 的 命令 。 在 步骤 1 发 
现 1 后 ,将 该 行 分 割 为 两 个 命令 : 1s 与 more。 每 个 要 被 处 理 的 命令 都 以 一 般 方 式 执行 
最 后 的 结果 是 在 当前 目录 下 已 分 页 的 文件 列表 。 
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7.8.2 ”subShell 与 代码 块 
还 有 两 个 其 他 的 结构 ， 有 了 时 也 很 有 用 subShel! 与 代码 块 (code block)。 


subShell 是 一 群 被 括 在 圆 括号 里 的 命令 ， 这 些 命令 会 在 另外 的 进程 中 执行 ( 注 4)。 当 你 
霸 要 让 二 小 组 的 命令 在 不 同 的 目 节 下 抽 了 时 ,这 种 方法 可 以 让 你 不 必修 改 主 脚 本 的 目录 ， 
直接 处 理 这 种 情况 。 例 如 , 下 面 的 管道 是 将 某 个 目录 树 复制 到 另 一 个 地 方 , 在 原始 的 V7 
UNIX tar(1) 的 手册 页 里 可 以 看 到 此 例 : 


tar -cf - . | {cd /newdir; tar -xpf -) 


左边 的 tar 命 令 会 产生 当前 目录 的 tar 打包 文件 (archive), 将 它 传送 给 标准 输出 。 这 
份 打 包 文 件 会 通过 管道 传递 给 右边 subShell 里 的 命令 。 开 头 的 ca 命令 会 先 切 换 到 新 目 
录 ， 也 就 是 让 打包 文件 在 此 目录 下 解 开 。 然 后 ， 右 边 的 tar 将 从 打包 文件 中 解 开 文件 。 
请 注意 ， 执 行 此 管道 的 Shell (或 脚本 ) 并 未 更 改 它 的 目录 。 


代码 块 (code block) 概念 上 与 subShell 雷同 ， 只 不 过 它 不 会 建立 新 进程。 代码 块 里 的 
命令 以 花 括号 ({] ) 括 起 来 ， 且 对 主 脚 本 的 状态 会 造成 影响 (例如 它 的 当前 目录 )。 一 

般 来 说 ， 花 括号 被 视 为 Shell 关键 字 : 意 即 它们 只 有 出 现在 命令 的 第 一 个 符号 时 会 被 识 
别 。 实际 上 ; 这 表示 你 必须 将 结束 花 括 号 放置 在 换行 字符 (newline) 或 分 号 之 后 。 例如 : 


cd./some/directory 1]1.{ : 代码 块 开始 
echo could not charige to /sone/dizectory! >&2 ”怎么 了 
echo you lose! >&2 . 挖苦 信息 
exit 1 终止 整个 脚本 

} | 村 代码 块 结束 


1/O 重 定向 也 可 套用 到 subShell. (如 先前 的 两 个 tar 例 子 ) 与 代码 块 里 。 在 该 情况 下 ,所 
有 的 命令 会 从 重 定 向 来 源 读 取 它们 的 输入 或 传送 它们 的 输出 。 表 7-8 简单 说 明 subShell 
与 代码 块 之 间 的 差异 。 


SubShell 2 


畏 梅 ,，，。. 案 界 符 。 ,认可 的 位 洲 ，、,，，， ，” ， ，，， 史 外 的 进程 ， 
Subshell () 行 上 的 任何 位 置 A 是 
代码 块 {} 在 换行 字符 、 分 号 或 关键 字 之 后 否 








要 用 subShell 还 是 代码 块 需要 根据 个 人 的 喜好 而 定 。 主要 差异 在 于 代码 块 会 与 主 脚 本 共 
享 状态 。 这 么 一 来 ，ca 命令 会 对 主 脚 本 造成 影响 ， 也 会 对 变量 赋值 产生 影响 。 特别 是 ， 


注 4; POSIX 的 标准 说 法 是 。 “subShell 环境 ”， 人 然而 ， 
它们 只 是 被 禁止 更 接 主 脚本 的 环境 (变量 、 目 前 目录 等 等 ) 。ksh93 会 避免 为 subShell 命 
令 启 动 一 个 实际 的 进程 (如 果 它 可 以 的 话 ) 。 大 部 分 其 他 的 Shell 会 产生 一 个 单个 进程 。 
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代码 块 里 的 exit 会 终止 整个 脚本 。 因 此 ， 如 果 你 希望 将 一 组 命令 括 起 来 执行 ， 而 不 要 
影响 主 脚本 ， 则 应 该 使 用 subShell。 否 则 ， 请 使 用 代码 块 。 


7.9 ”内 建 命令 


Shell 有 为 数 不 少 的 内 建 (built-in) 命令 。 指 的 是 由 Shell 本 身 执行 命令 , 而 并 非 在 另外 
的 进程 中 执行 外 部 程序 。POSIX 更 进一步 将 它们 区 分 为 “特殊 (special)” 内 建 命令 以 
及 “一 般 (regular)” 内 建 命令 。 内 建 命令 行 参 见 表 7-9， 特 殊 内 建 命令 以 + 标示 。 大 部 
分 这 里 列 出 的 一 般 内 建 命 令 都 必须 内 建 于 Shell 中 ， 以 维持 Shell 正常 地 运行 (例如 
read)。 共 他 内 建 于 Shell 内 的 命令 , 则 只 是 为 了 效率 (例如 true 与 false)。 在 此 标准 
下 , 也 为 了 更 有 效率 , 而 允许 内 建 其 他 的 命令 , 不 过 所 有 的 一 般 内 建 命令 都 必须 能 够 以 
单个 的 程序 被 访问 , 也 就 是 可 以 被 其 他 二 进 制程 序 直 接 执行 。 像 test 内 建 命令 就 是 为 
了 让 Shell 的 执行 更 有 效率 。 


表 7-9:; POSIX 的 Shell 内 建 命令 


命令 . 摘要 

: (冒号 ) 入 不 做 任何 事 〈 只 作 参 数 的 展开 ) 

(点 号 ) 汉 读 取 文件 并 于 当前 Shell 中 执行 它 的 内 容 

alias (别名 ) 设置 命令 或 命令 行 的 捷径 (交互 式 使 用 ) 

bg 将 工作 置 于 后 台 (交互 式 使 用 ) 

break 六 a 从 for、while 或 until 循环 中 退出 

ca 改变 工作 目录 es 
command 找 出 内 建 与 外 部 命令 ， 寻 找 内 建 命令 而 非 同 名 的 函数 
Continue 注 跳 到 下 一 个 for、while 或 until 循环 重复 

eval 生 ”将 参数 当成 命令 行 来 处 理 

exec ” 以 给 定 的 程序 取代 Shell 或 为 Shell 改变 1/0 

exit 注 退出 Shell 

export 注 建立 环境 变量 

false 什么 事 也 不 做 ， 指 不 成 功 的 状态 

fc 与 命令 历史 一 起 运行 (交互 式 使 用 ) 

fg 将 后 台 工 作 置 于 前 台 (交互 式 使 用 ) 

getopts | 处 理 命令 行 的 选项 

jobs 列 出 后 台 工作 (交互 式 使 用 ) 

kill 传送 信号 
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表 7-9: POSIX 的 Shell 内 建 命令 ( 续 ) 


命令 EAE 35 二 
newgrp 以 新 的 group ID 启动 新 Shell (已 过 时 ) 

pwd 打印 工作 目录 

read 从 标准 输入 中 读 取 一 行 

readonly 注 让 变量 为 只 读 模式 (无 法 指定 的 ) 

retuzrn 注 从 包围 函数 中 返回 

set 注 设置 选项 或 是 位 置 参 数 

Shift 注 移 位 命令 行 参数 

times 渡 针对 Shell 与 其 子 代 Shell， 显 示 用 户 与 系统 CPU 时 间 的 累计 
trap 注 设置 信号 捕捉 程序 

ture 什么 事 也 不 做 ， 表 示 成 功 状态 

umask 设置 /显示 文件 权限 掩 码 (mask) 

unalias 删除 别名 定义 (交互 式 使 用 ) 

unset 注 删除 变量 或 函数 的 定义 

wait 等 待 后 台 工 作 完 成 


注 : bash 的 source 命 令 (来 自 于 BSD C Shell) 是 等 同 于 点 号 命令 。 


特殊 内 建 命令 与 一 般 内 建 命令 的 差别 在 于 Shell 查找 要 执行 的 命令 时 。 命 令 查 找 次 序 是 
先 找 特殊 内 建 命令 ， 再 找 Shell 函数 , 接 下 来 才 是 一 般 内 建 命令 ,最 后 则 为 $PATH 内 所 
列 目录 下 找到 的 外 部 命令 。 这 种 查找 顺序 让 定义 Shell 函数 以 扩展 或 覆盖 一 般 sehll 内 建 
命令 成 为 可 能 。 


这 一 功能 最 常用 于 交互 式 Shell 中。 举例 来 说 , 当 你 希望 Shell 的 提示 号 能 包含 当前 目录 
路 径 的 最 后 一 个 组 成 部 分 。 最 简单 的 实现 方式 , 就 是 在 每 次 你 改变 目录 时 , 都 让 Shell 改 
变 PS1。 你 可 以 写 一 个 自己 专用 的 函数 ， 如 下 所 示 : 


# chdir --- 在 改变 目录 时 也 更 新 PS1 的 个 人 函数 


chair () { i 
cd "$@" 实际 更 改 目 录 
x=$ (pwad) 取得 当前 目录 的 名 称 ， 传 到 变量 x 


PS1="$ {x##*/}\$ " 截断 前 面 的 组 成 部 分 后 ， 指 定 给 PS1 
} 


这 么 做 会 有 个 问题 : 你 必须 在 Shell 下 输入 chdir 而 不 是 ca， 如 果 你 突然 忘 了 而 输入 
cd, 你 会 在 新 的 目录 上 , 但 提示 号 就 不 会 改变 了 。 基于 这 个 原因 , 你 可 以 写 一 个 名 为 cq 
的 函数 ， 然 后 Shell 就 会 先 找到 你 的 函数 ， 因 为 cd 是 一 般 内 建 命 令 : 
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# cd --- 改变 目录 时 更 新 PS1 的 个 人 版 本 


# (无 法 如 实 运行 ， 见 内 文 ) 
cd () 4{ | | 让 
cd "S$@" . 真 的 改变 目录 了 吗 1 ? 
x=$ (pwd) 0 取得 当前 目录 的 名 称 ， 并 传 给 变量 x 
PS1="${x##*/}\$ " . ”截断 前 面 的 组 成 部 分 后 ， 指 定 给 PS1 


} 


这 里 有 一点 美中不足 Shell 函数 如 何 访问 真正 的 ca 命令 ? 这 里 所 显示 的 ca "SQ@" 
会 再 次 调用 此 函数 ， 导 致 无 限 递 归 。 我 们 需要 的 是 转 义 策略 ， a 
查找 并 访问 真正 的 命令 。 人 见 例 7-4。 


例 7-4; 变更 目录 时 更 新 PS1 
# cd --- 改变 目录 时 更 新 PS1 的 私人 版 本 





cd () { 
command cd "S$@" 实际 改变 目录 
x=$ (pwd) 取得 当前 目录 的 名 称 ， 传 递 给 变量 x 
PS1="${x##*/)}\$ "”. 截断 前 面 的 组 成 部 分 ， 指 定 给 . PS1 . . , 
} | 
command | 
| command [ -p ] program [ arguments ... 1 
用 途 ea ee Ms 
在 查找 要 执行 的 命令 时 , 为 了 要 避 开 Shell 的 包含 函数 。 这 允许 从 函数 中 访问 
Ss 
主要 选项 
一 了 


当 查 找 命令 时 ， 使 用 $PATH 的 歌 认 值 ， 保证 找到 系统 的 工具 。 
command 会 通过 查阅 特殊 的 与 一 般 的 内 建 命令 ， 以 找 出 指定 的 program, 并 
沿 着 $SPATH 查 找 。 使 用 -pp 选 项 ， 则 会 使 用 SPRATH 的 默认 值 ， 而 非 当 前 的 设置 。 

如果 Program 为 特殊 内 建 命令 ， 则 任何 的 语法 错误 都 不 会 朋 册 Shell， 且 任何 
前 置 的 变量 指定 在 命令 完成 后 ， 即 不 再 有 效 。 

党 从 
command 非特 殊 内 建 命令 。 将 函数 命名 为 command 的 Shell 程序 设 让 人员 可 
能 会 觉得 很 失望 吧 ! 
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小 
请 








POSIX 标准 为 特殊 内 建 命令 提供 两 个 附加 特性 : 


。 ”特殊 内 建 工 具 语 法 上 的 错误 ， 会 导致 Shell 执行 该 工具 时 退出 ， 然 而 当 语法 错误 出 
现在 一 般 内 建 命令 时 ， 并 不 会 导致 Shell 执 行 该 工具 时 退出 。 如 果 特 殊 内 建 工 具 遇 
到 语法 错误 时 不 退出 Shell， 则 它 的 退出 值 应 该 非 零 。 


。 ”以 特殊 内 建 命令 所 标明 的 变量 指定 ,在 内 建 命令 完成 之 后 仍 会 有 影响 ; 这 种 情况 不 
会 发 生 在 一 般 内 建 命令 或 其 他 工具 的 情况 下 。 


第 二 项 需要 解释 一 下 ， 我 们 先前 在 6.1.1 节 里 兽 提 及 ， 你 可 以 在 命令 前 面 指定 一 个 变量 
赋值 ， 且 变量 什 在 被 执行 命令 的 环境 中 不 影响 当前 Shell 内 的 变量 或 是 接 下 来 的 命令 : 


PATH=/bin: /usr/bin:/usr/ucb awk ' 


然而 ， 当 这 样 的 指定 用 于 特殊 内 建 命令 时 ， 即使 用 在 特殊 内 建 命令 完成 之 后 ， 仍然 会 有 
影响 。 


表 7-9 列 出 本 章 到 目前 为 止 尚未 介绍 的 命令 。 这 些 命令 中 的 大 部 分 对 于 Shell 脚本 而 言 为 
特殊 情况 或 不 相关 情况 , 不 过 我 们 在 这 里 还 是 作 一 些 简介 , 让 你 了 解 它们 在 做 什么 以 及 
使 用 它们 的 时 机 : 


alias、 unalias 
分 别 用 于 别名 的 定义 与 删除 。 当 命令 被 读 取 时 ， Shell 会 展开 别名 定义 。 别 名 主要 
用 于 交互 式 Shell， 例 如 alias 'rm=rm -i'， 指 的 是 强制 rm 在 执行 时 要 进行 确 
认 。Shell 不 会 作 递 归 的 别名 展开 ， 因 此 此 定义 是 合法 的 。 


bg, fg、jobs、kill 
这 些 命令 用 于 工作 控制 , 它 是 一 个 操作 系统 工具 , 可 将 工作 移 到 后 台 执行 , 或 由 后 
台 执 行 中 移出 。 


是 “fix ca 的 编写， 该 命令 设计 用 来 在 交互 模式 下 使 用 。 它 管理 Shell 之 
前 已 存储 的 执行 过 的 命令 历史 ， 允许 交互 式 用 户 再 次 调用 先前 用 过 的 命令 ， 编辑 它 
以 及 再 重新 执行 它 EE。 


这 条 命令 原先 是 在 ksh 下 开发 的 ， 提供 像 BSD C Shell csh 里 的 “!_history” 
这 样 的 机 制 ， 不 过 fc 现 已 被 ksh、 bash 以 及 zsh 所 提供 的 交互 式 命令 行 编辑 功 
能 所 取代 。 


times 


该 命令 会 打印 由 Shell 及 所 有 子 进 程 所 累积 执行 迄今 的 CPU 时 间 。 它 对 于 日 常 的 肢 
本 编写 不 是 那么 有 用 。 
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umask 


用 来 设置 文件 建立 时 的 权限 掩 码 ， 详 见 附录 B 里 的 说 明 。 


剩 下 的 两 个 命令 在 脚本 中 是 用 得 到 的 。 第 一 个 是 用 来 等 待 后 台 程序 完成 的 wait 命令 。 
如 未 加 任何 参数 ，wait 会 等 待 所 有 的 后 台 工 人 完成， 否则， 每 个 参数 可 以 是 后 台 工 作 
的 进程 编号 (process ID ) ， 见 13.2 节 ， 或 是 工作 控制 的 工作 规格 。 


最 后 ，. (点 号 ) 也 是 非常 重要 的 命令 。 它 是 用 来 读 取 与 执行 包含 在 各 别 文件 中 的 命令 。 
例如 ， 当 你 有 很 多 个 Shell 函数 想 要 在 多 个 脚本 中 使 用 时 ， 正 确 方式 是 将 它们 放 在 各 自 
的 库 文件 里 ， 再 以 点 号 命令 来 读 取 它们 : 


* my_funcs # 在 函数 中 读 取 


如 指定 的 文件 未 含 斜 杠 ， 则 Shell 会 查找 $PATH 下 的 目录 ， 以 找到 该 文件 。 该 文件 无 须 
是 可 执行 的 ， 只 要 是 可 读 取 的 即 可 。 


注意 : 任何 读 进来 的 (read-in) 文件 都 是 在 当前 Shell 下 执行 。 因 此 , 变量 赋值 、 函 数 定义 , 以 及 
cd 的 目录 变更 都 会 有 效 。 这 和 简单 地 执行 各 自 的 Shell 脚本 是 很 不 同 的 , 后 者 在 个 别 的 进 
程 中 执行 ， 且 完全 不 对 当前 的 Shell 有 任何 影响 。 


7.9.1 ”set 命令 


set 命令 可 以 做 的 事 相当 广泛 ( 注 5)。 就 连 使 用 的 选项 语法 也 与 众 不 同 ， 这 是 POSIX 
为 保留 历史 的 兼容 性 而 存在 的 命令 。 也 因为 这 样 ， 这 个 命令 有 点 难 懂 。 


set 命令 最 简单 的 工作 就 是 以 排序 的 方式 显示 所 有 Shell 变量 的 名 称 与 值 。 这 是 调用 它 
时 不 加 任何 选项 与 参数 时 的 行为 。 其 输出 是 采用 Shell 稍 后 可 以 重读 的 形式 一 一 包含 适 
当 的 引号 。 这 个 想法 是 出 自 Shell 脚本 有 可 能 需要 存储 它 的 状态 ， 在 之 后 会 通过 . (点 
号 ) 命令 恢复 它 。 


set 的 另 一 项 任务 是 改变 位 置 参数 ($1、$2 等 )。 使 用 -- 的 第 一 个 参数 来 结束 设置 它 
自己 的 选项 ， 则 所 有 接 下 来 的 参数 都 会 取代 位 置 参 数 ， 即 使 它们 是 以 正 号 或 负 号 开头 。 


注 5: 它 因 此 违反 了 做 好 一 件 事 的 软件 设计 原则 。 这 是 因为 ，Steven Bourne 项 望 能 避免 有 太 
多 的 保留 命令 内 置 在 Shell 里 。 | 
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用 途 


党 各 





set 


set 


set 
set 


set 


set 


Set 


-- [ arguments ... ] | 

{ -short-options ] [ -co long-option ] t ‘arguments ... ] 
{ +Short-options ] [+o long-option ] { arguments ... ] 
-© | | | 

+O 


为 了 打印 当前 Shell 的 所 有 变量 名 称 及 其 值 、 为 了 设置 或 解除 设置 Shell 选项 
的 值 (可 改变 Shell 行为 的 方式 ) ， 以 及 为 了 改变 位 置 参数 的 值 。 


主要 赣 顶 


见 内 文 。 


A 


a 则 以 Shell 稍 后 可 读 取 的 形式 来 打印 所 有 Shell 变量 的 名 


称 与 值 。 

选项 为 -- 及 参数 ， 则 以 提供 的 参数 取代 位 置 参 数 。 

开头 为 -的 短 选 项 ,或 以 -co 开 头 的 长 选项 ， 则 可 打开 特定 的 Shell 选 项 。 
额外 的 非 选 项 (nonoption) 和 参数 可 设置 位 置 参数 。 详 见 内 文 。 

以 + 开头 的 短 选 项 ， .或 以 +6 开 头 的 长 选项 ， 则 可 关闭 特定 的 Shell 先 项。 
详 见 内 文 。 

单 寺 的 -o 可 以 一 一 种 不 特别 指定 的 格式 打印 Sheli 选项 的 当前 设置 。 
ksh93 与 bash 部 会 打印 排序 后 的 列表， SN sR | 


+ . 词 on 或 off: 


$ set -o 来 自 bash 
allexport off 


， 单 一 的 +o 则 是 显示 Shell 选 项 的 当前 设置 ， 其 采用 Shell 之 后 可 以 重读 


的 方式 ， 以 获得 选项 设置 的 相同 设置 。 


除了 表 7-10 所 列 的 之 外 ， 实 际 的 Shell 还 拥有 其 他 额外 的 短 与 长 选项 ， 第 14 
章 有 详细 介绍 。 如 果 可 移植 性 对 你 来 说 很 重要 ， 请 不 要 用 它们 。 


有 些 /bin/sh 版 本 完全 不 认得 set -o 的 用 法 。 
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最 后 ，set 被 用 来 打开 或 停 用 Shell 选项 (Shell option), 指 的 是 改变 Shell 行 为 模式 的 
.内 部 设置 。 这 里 就 是 复杂 的 地 方 了 , 从 历史 来 看 ,Shell 选 项 是 以 单个 字母 来 描述 , 以 负 
号 打开 并 且 以 正 号 关闭 。 POSIX 另 加 入 了 长 选项 , 打开 或 关闭 分 别 是 用 -co 或 +o。 每 个 
单个 字母 选项 都 有 相对 应 的 长 名 称 选项 。 表 7-10 列 出 部 分 选项 , 并 简短 说 明了 它们 的 功 


2b, 
有 E。 


表 7-10: POSIX Shell 选项 





a allexport ”输出 所 有 后 续 被 定义 的 变量 ， 
-b notify 立即 显示 工作 完成 的 信息 ， 而 不 是 等 待 下 个 提示 号 。 供 交 
互 式 使 用 。 
-C noclobber 不 允许 > 重 定向 到 已 存在 的 文件 。> ! 运算 符 可 使 此 选项 的 设 
置 无 效 。 供 交互 式 使 用 。 A A 
= : errexit . 当 命令 以 非 零 状态 退出 时 ， 则 退出 Shell。 
-f noglob 停 用 通配符 展开 。 . 
-hh 本 当 卫 数 接 定 义 《而 非 当 函 数 被 执行 ) 时 ， 寻找 并 记 住 从 函数 
” ”人 体 中 被 调用 的 命令 位 置 (XSI)。 
= monitor ”打开 工作 控制 (默认 是 打开 的 )。 供 交互 式 使 用 。 
-n noexec 读 取 命令 且 检 查 语法 错误 ， 但 不 要 执行 它们 。 交 万 式 Sheli 视 
3 允许 忽略 此 选项 。 
-U nounset 视 未 定义 的 变量 为 错误 ， 而 非 为 null。 
-Vv 。 Verbose 在 执行 前 先 打印 命令 ( 逐 字 打 印 )。 
-x xtrace ”在 执行 前 先 显 示 命令 (在 展开 之 后 )。 
ignoreeof | 不 允许 以 Ctrl-D 退出 Shell。 
‘nolog 关闭 函数 定义 的 命令 历史 记录 功能 。 
| vi . is 使 用 vi 风格 的 命令 行 编辑 。 供 交互 式 使 用 。 





你 可 能 感到 意外 的 地 方 是 ，set 并 非 用 来 设置 Shell 变量 (不 像 BSD C Shell 里 的 相同 
命令 那样 )。 该 工作 是 通过 简单 的 variable=value 指 定 实现 的 。 





注意 : .尽管 不 是 POSIX 的 一 部 分 ，set -o emacs 命令 还 是 在 很 多 Shell 中 实现 出 来 (shgg. 
ksh93、bash、 zsh)。 如 果 你 已 习惯 使 用 emacs, 则 使 用 此 命令 可 让 你 的 单行 小 窗口 编辑 
器 可 以 接受 smacs 命令 ， 以 与 你 的 Shel 历史 一 起 运行 。 
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特殊 变量 $- 是 一 个 字符 串 , 表示 当前 已 打开 的 Shell 选项。 每 个 选项 的 短 选项 字母 会 出 
现在 字符 串 中 (假如 该 选项 是 打开 的 话 )。 这 可 被 用 来 测试 选项 设置 ， 像 这 样 : 


case $- in 
*C*) yp 启用 noclobber 选项 


esac 


警告 .值得 玩味 的 是 , 当 POSIX 标 准 可 让 用 户 存储 与 恢复 Shell 变 量 与 捕捉 (trap) 的 状态 时 , 它 
却 没 有 统一 的 方式 来 存储 函数 定义 的 列表 供 而 后 再 利用 。 这 似乎 是 该 标准 的 小 朴 失 , 我 们 
将 于 14.1 节 中 作 说 明 。 


7.10 小 结 


read 命令 会 读 取 行 并 将 数据 分 割 为 各 个 字段 ， 供 赋值 给 指明 的 Shell 变量。 搭配 -r 选 
项 ， 可 控制 数据 要 如 何 被 读 取 。 


1/O 重 定向 允许 你 改变 程序 的 来 源 与 目的 地 ， 或 者 将 多 个 程序 一 起 执行 于 subShell 或 代 
码 块 里 。 除 了 重 定向 到 文件 和 从 文件 重 定向 之 外 , 管道 还 可 以 用 于 将 多 个 程序 连接 在 一 
起 。 艇 入 文件 则 提供 了 行内 输入 。 


文件 描述 符 的 处 理 是 基本 操作 ， 特 别 是 文件 描述 符 1 与 2, 会 重复 地 用 在 日 常 的 脚本 编 
写 中 。 9 


printf 是 一 个 深 9 具 灵活 性 ,但 有 点 复杂 的 命令 ， 用 途 是 产生 输出 。 大 部 分 时 候 ， 它 可 
以 简单 地 方式 使 用 ， 但 其 实 它 的 力量 有 时 候 是 很 有 必要 性 且 深 具 价值 的 。 


Shell 会 执行 许多 的 展开 〈 或 替换 ) 在 每 个 命令 行 的 文字 上 : 波浪 号 展开 式 〈 如 果 有 支 
持 ) 与 通配符 、 变 量 展开 、 算 术 展开 及 命令 替换 。 通 配 符 现 已 包含 POSIX 字符 集 ， 用 来 
针对 文件 名 内 的 字符 进行 独立 于 locale 的 匹配 。 为 了 使 用 上 方便 ,点 号 文件 并 未 包含 在 
通配符 展开 中 。 变 量 与 算术 展开 于 第 6 章 已 做 过 说 明 。 命 令 替 换 有 两 种 形式 :“… 为 原 
始 形式 ， 而 $(. .. ) 为 较 新 、 较 好 写 的 形式 。 


引用 会 保护 不 同 的 源 代码 元 件 ， 免 于 被 Shell 作 特 殊 处 理 。 单 个 的 字符 可 能 会 以 前 置 反 
斜 杠 的 方式 引用 使 用 。 单 引号 会 保护 所 有 括 起 来 的 字符 ; 引号 括 起 的 所 有 文字 都 不 作 处 
理 , 且 你 不 可 以 将 单 引号 内 嵌 到 以 单 引号 引用 的 文字 内 。 双 引号 则 是 组 合 括 起 来 的 项 目 ， 
从 而 视 为 单一 的 单词 或 参数 ， 但 是 变量 、 算 术 与 命令 替换 仍旧 应 用 到 内 容 中 。 


eval 命 令 的 存在 是 为 了 取代 一 般 命 令 行 替换 与 执行 顺序 , 让 Shell 脚 本 可 以 动态 地 构建 
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命令 。 这 个 功能 很 好 用 ， 但 得 小 心 使 用 。 因 为 Shell 拥有 这 么 多 种 的 蔡 换 功能 ， 花 点 时 
间 了 解 Shell 在 执行 输入 行 时 的 顺序 绝对 是 很 有 帮助 。 


subShell 与 代码 块 是 组 化 命令 的 两 种 选择 。 它 们 的 用 意 各 有 不 同 , 你 可 以 根据 需求 选用 。 


内 建 命令 的 存在 是 因为 它们 要 改变 Shell 内 部 状态 且 必 须 是 内 建 的 〈 例 如 cQ) ， 有 些 则 
是 为 了 效率 (例如 test)。 命令 查找 顺序 允许 函数 在 一 般 内 建 命令 之 前 先 被 找到 , 结合 
command 命 令 , 则 可 以 编写 一 个 能 使 内 建 命 令 生 效 的 Shell 函 数 。 在 所 有 内 建 命 令 里 , set 
命令 是 最 复杂 的 。 


www.TopSage.com 


第 8 章 


和 





在 本 章 中 , 我 们 将 进一步 处 理 更 复杂 的 工作 。 我 们 认为 这 里 举 出 的 例子 都 是 一 般 用 得 到 
的 工具 ， 它 们 每 一 个 都 是 全 然 不 同 的 ， 且 在 大 多 数 的 UNIX 工具 集 里 也 没有 。 


本 章 中 的 程序 ,包括 命令 行 参 数 分 析 、 在 远程 主机 上 和 运算、 环境 变量 、 工 作 记 录 、 并 行 
处 理 、 使 用 eval 的 运行 时 语句 (runtime statement) 执行 、 草 稿 文件 (scratch file ) 、 
Shell 函数 、 用 户 定义 初始 文件 ,以 及 安全 性 议题 考虑 的 范例 。 程 序 会 运用 Shell 语言 里 
的 重要 语句 ， 并 展现 传统 UNIX Shell 脚本 编写 风格 。 虽 然 我 们 是 为 了 这 本 书 而 开发 的 
这 些 程序 ， 但 这 些 程序 的 基础 稳固 ， 经 得 起 时 间 考 验 ， 你 可 以 在 日 常 工作 上 使 用 它们 。 


8.1 ”路 径 查 找 


有 些 程 序 支持 在 目录 路 径 上 查找 输入 文件 ， 有 点 像 UNIX Shell 查找 以 冒号 隔 开 的 目录 
列表 , 列 在 PATH 内 ,以 找 出 可 执行 的 程序 。 这 对 用 户 来 说 很 方便 ,他 只 要 提供 较 短 的 
文件 名 ， 且 不 需要 知道 它们 在 文件 系统 里 的 位 置 。UNIX 并 未 提供 任何 特殊 命令 或 系统 
调用 , 可 在 查找 路 径 下 寻找 文件 , 即使 在 很 入 以 前 有 其 他 操作 系统 支持 这 种 功能 。 幸好 ， 
要 作 路 径 查 找 不 难 ， 只 要 用 对 工具 就 可 以 。 


与 其 实现 路 径 查找 以 寻找 特定 程序 , 不 如 做 一 个 新 的 工具 ， 以 环境 变量 名 称 为 参数 ， 而 
环境 变量 名 称 展开 是 预期 的 查找 路 径 , 后 面 接着 零 个 或 更 多 的 文件 模式 , 并 报告 匹配 文 
件 的 位 置 。 我 们 的 程序 将 在 其 他 需要 路 径 查 找 支 持 的 软件 中 ， 成 为 一 般 性 工具 (这 也 就 
是 我 们 先前 在 第 1 章 提 到 的 “构建 特定 工具 前 ， 先 想 想 ” 的 原则 )。 


有 时 你 得 知道 路 径 下 的 某 个 文件 是 不 是 不 止 一 个 , 因为 当 路 径 下 存 有 不 同 的 版 本 时 , 你 
可 能 需要 调整 路 径 , 控制 要 找到 的 版 本 。 我 们 的 程序 会 为 用 户 提供 一 个 命令 行 选项 ， 以 
选择 报告 第 一 个 找到 的 文件 还 是 报告 所 有 找到 的 文件 。 另 外 , 根据 用 户 要 求 提 供 一 个 可 
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识别 的 版 本 编号 ， 变 成 软件 的 标准 实现 ， 而 且 必 须 提 供 简短 的 在 线 帮 助 ， 让 用 户 不 需要 
在 每 次 使 用 程序 时 , 都 重读 程序 的 使 用 手册 才能 想起 选项 名 称 。 我们 的 程序 当然 也 提供 


完整 程序 将 在 例 8-1 给 出 , 因为 这 个 程序 很 长 , 我 们 在 此 将 它 展现 为 伪 码 程序 (semiliterate 
program)， 是 为 了 注释 与 描述 Shell 程序 代码 的 各 个 片段 的 顺序 ， 以 便 说 明 。 


我 们 从 一 般 的 介绍 性 注释 块 开始 。 首 行为 识别 程序 的 神奇 行 ，/bin/sh 用 来 执行 脚本 。 
注释 块 后 ， 接 的 是 程序 行为 的 描述 ， 并 说 明 使 用 方法 : 


#! /bin/sh - 


# 
# 在 查找 路 径 下 寻找 一 个 或 多 个 原始 文件 或 文件 模式 ， 
# 查找 路 径 由 一 个 指定 的 环境 变量 所 定义 。 


# 标准 输出 产生 的 结果 ， 通 常 是 在 查找 路 径 下 找到 的 每 个 文件 之 第 一 个 实体 的 完整 路 径 ， 
或 是 “filename: not found” 的 标准 错误 输出 。 


如 果 所 有 文件 都 找到 ， 则 退出 码 为 0， 
否则 ， 即 为 找 不 到 的 文件 个 数 - 非 零 值 
(Shell 的 退出 码 限制 为 125)。 


语法 : 


pathfind [--all] [--?] [--help] [--version] envvar Pattern(s) 


# 选项 --all 指 的 是 寻找 路 径 下 的 所 有 目录 ， 

# 而 不 是 找到 第 一 个 就 停止 。 
在 网 络 的 环境 下 ， 安 全 性 一 直 是 必须 慎重 考虑 的 问题 。 其 中 有 一 种 攻击 Shell 脚本 的 方 
式 , 是 利用 输入 字段 分 隔 字 符 : IFS, 它 会 影响 Shell 接 下 来 对 输入 数据 解释 的 方式 。 为 
避免 此 类 型 的 攻击 ， 部 分 Shell 仅 在 脚本 执行 前 ， 将 IFS 重 设 为 标准 值 ， 其 他 则 导入 该 
变量 的 一 个 外 部 设置 。 我 们 则 是 将 自己 做 的 预防 操作 放 在 脚本 的 第 一 步 : 


IFS=" 


站 闪闪 着 着 章 间 和 间 和 间 和 闪 


很 难 在 屏幕 上 或 是 显示 的 页 面 上 看 出 位 于 引号 里 的 内 容 : 它 是 具有 三 个 字符 的 字符 串 ， 
包括 换行 字符 (newline)、 空 格 , 以 及 定位 字符 (tab)。IFS 的 默认 值 为 : 空格 、 定 位 字 
符 、 换 行 字符 , 不 过 如 果 我 们 以 这 种 方式 编写 , 那些 会 自动 修剪 空白 的 编辑 器 可 能 会 将 
结尾 的 空白 截 去 , 让 字符 串 的 值 减 少 成 只 有 一 个 换行 字符 。 比 较 好 的 方式 应 该 是 更 严谨 
的 使 用 转 义 字符 ， 例 如 IFS="\040\t\n"， 可 是 Bourne Shell 并 不 支持 这 样 的 转 义 符 。 


在 我 们 重新 定义 IFS 时 有 一 点 请 特别 留意 。 当 "$*" 展开 以 恢复 命令 行 时 ，IFS 值 的 第 
一 个 字符 ， 会 被 当成 字段 分 隔 符 。 我 们 在 这 个 脚本 里 不 使 用 $* ， 所 以 重新 安排 IFS 内 
的 字符 不 会 有 影响 。 
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另 一 种 常见 的 安全 性 攻击 ， 则 是 欺骗 软件 ， 它 执行 非 我 们 所 预期 的 命令 。 为 了 阻 断 这 种 
攻击 , 我 们 希望 调用 的 程序 是 可 信任 的 版 本 , 而 非 潜伏 在 用 户 提供 的 查找 路 径 下 的 欺骗 
程序 ， 因 此 我 们 将 PATH 重 设 为 一 个 最 小 值 ， 以 存储 初始 值 供 以 后 使 用 : 


OLDPATH="*$PATH" 


PATH=/bin: /usr/bin 
export PATH 


export 语句 是 这 里 的 关键 ， 它 可 以 确保 所 有 的 子 进程 继承 我 们 的 安全 查找 路 径 。 
程序 代码 接 下 来 是 5 个 以 字母 顺序 排列 的 简短 函数 。 


第 1 个 函数 为 error () 函数 , 在 标准 错误 输出 上 显示 其 参数 , 再 调用 一 个 印 数 (此 部 分 
稍 后 有 说 明 )， 不 返回 : | 
. error() 
{ 
echo "S$@" 1>&2 


usage_and_ exit 1 


} 
第 2 个 函数 usage () 会 写 出 简短 信息 , 显示 程序 的 使 用 方式 , 并 返回 给 它 的 调用 者 。 需 
留意 的 是 : 这 个 函数 需要 程序 名 称 ， 但 不 是 以 直接 编码 模式 〈hardcode) ， 它 是 从 变量 
PROGRAM 取 得 程序 名 称 , 这 个 变量 设置 为 程序 被 调用 的 名 称 。 这 可 以 让 安装 程序 在 重新 
命名 程序 时 , 无 须 修改 程序 代码 , 这 常 发 生 在 与 已 安装 的 程序 名 称 产生 冲突 时 , 也 即 具 
同样 名 称 但 具有 不 同 用 途 的 时 候 。 函数 本 身 很 简单 : 


usage{) 
{ 
echo "Usage: $PROGRAM [--all] [--?] [--help] [--version] envvar pattern(S) " 
} 


第 3 个 函数 usage_and_exit (), 会 产生 语法 信息 , 并 以 它 的 单一 参数 所 提供 的 状态 码 
退出 : 

usage_ang_exit () 

| usage 


exit $1 
} 


第 4 个 函数 version() 是 在 标准 输出 上 显示 程序 版 本 编号 , 并 返回 给 它 的 调用 者 。 如 同 
usage () ， 它 是 使 用 PROGRAM 取得 程序 名 称 : 


version() 


{ 
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echo "S$PROGRAM version S$VERSION" 
} 


最 后 一 个 函数 warning () 会 在 标准 错误 上 显示 它 的 参数 ， 并 对 变量 EXITCODE 加 1， 可 
记录 已 发 出 的 警告 信息 的 数目 ， 并 返回 给 调用 者 * 
a 
{ 
echo "S$@" 1>&2: ， 


EXITCODE=“ expr SEXITCODE + 1. 
} 


7.6.3 节 对 expr 有 较 深入 的 探讨 。 在 这 里 ， 它 的 语法 是 Shell 为 变量 增值 的 习惯 方式 。 
较 新 版 的 Shell 则 允许 更 简单 的 形式 EXITCODE=$ ( (EXITCODE + 1))， 不 过 还 是 有 相 
当 多 系统 不 认得 该 POSIX 用 法 。 


即使 这 个 程序 很 短 , 我 们 其 实 完全 不 需要 写 国 数 , 除了 避免 程序 代码 重复 之 外 ,其 实 它 
可 以 隐藏 不 相关 的 细节 ,这 是 良好 的 程序 实现 方式 : 告知 我 们 正 要 做 什么 , 而 不 是 说 明 
我 们 要 如 何 作 。 . Se 1 


这 时 我 们 已 经 到 达 运 行 时 的 第 一 条 被 执行 的 语句 了 。 先 初始 化 5 个 变量 ,以 记录 选项 的 
选择 、 用 户 提供 的 环境 变量 名 称 、 退 出 码 、 程 序 名 称 以 及 程序 版 本 编号 ; 

i 

XITCODE-0 


PROGRAM=`basename $0. 
VERSION=1.0 . 


在 我 们 的 程序 里 , 将 遵循 小 写 (字母 ) 变量 为 本 地 函数 或 主 程序 代码 体 所 使 用 ,而 大 写 
变量 则 被 整个 程序 全 局 性 地 共享 。 这 里 给 a11 变量 一 个 字符 串 值 , 而 非 一 个 数字 , 是 因 
为 这 样 可 以 让 程序 更 清楚 ， 而 对 运行 时 资源 消耗 的 影响 也 微乎其微 。 





注意 : basename 命 令 是 从 完整 路 径 名 称 中 取出 文件 名 称 部 分 的 传统 工具 ， 它 会 截断 第 一 个 参数 的 
开头 所 有 字符 ， 一 直到 最 后 一 个 斜 枉 〈 含 )， 再 报告 剩余 字符 到 标准 输出 上 ， 


$ basedaie resolv.conf 产生 仅 含 文件 名 的 结果 
resolv.conf 8 
$ basename /etc/resolv.conf 产生 仅 含 文件 名 的 结果 


resolv.conf 


Bourne Shell 的 后 代 版 本 都 提供 模式 匹配 运算 符 ， 如 第 6 章 表 6-2 所 示 ， 可 用 来 完成 此 目 
的 ， 但 basename 为 原始 命令 ， 所 以 可 在 所 有 Shell 下 运行 。 


使 用 第 二 个 参数 来 表示 文件 名 结尾 ， 则 basename 从 它 的 结果 中 截断 任何 匹配 的 结尾 : 
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$ basename /etc/resolv.conf .conf 报告 无 结尾 的 文件 名 
resolyv 

$ basename /etc/resolv.conf .pid 仅 报 告 文件 名 
resolv.conf . 


虽然 basename 的 第 一 个 参数 通常 是 路 径 名 称 ， 但 basename 只 简单 地 认为 它 是 一 个 文字 
字符 串 ， 不 需要 、 也 不 会 检查 它 是 否 为 真正 存在 的 文件 。 


如 省 略 参 数 ， 或 参数 为 空 字符 串 ， 则 basename 的 行为 由 运行 时 定义 。 


接 下 来 的 大 型 代码 块 , 是 在 所 有 的 UNIX 程序 里 典型 的 命令 行 参数 解析 : 当 我 们 有 一 个 
参数 时 (由 参数 计数 值 $# 决定 ， 且 必须 大 于 零 )， 会 根据 参数 的 字符 串 值 来 选择 case 
语句 的 程序 块 ， 处 理 该 参数 ; 

while test S$# -gt 0 


do 
case $1 in 


case 选 择 器 在 不 同 环境 下 可 能 有 不 同 的 解读 方式 。 GNU 程 序 风格 鼓励 使 用 长 的 、 描 述 
性 的 选项 名 称 ， 而 不 是 长 久 以 来 用 于 UNIX 里 的 那 套 旧 的 、 隐 秘 式 的 单一 字符 选项 。 后 
者 简洁 式 的 做 法 , 在 选项 数 很 少 且 程 序 使 用 频繁 的 时 候 还 让 人 可 以 接受 , 如 果 不 是 这 种 
情况 ， 描 述 性 的 名 称 会 比较 好 ， 用 户 只 需要 提供 足够 的 信息 一 一 不 要 和 其 他 选项 重复 
即 可 。 然 而 ， 当 有 其 他 程序 提供 相同 的 选项 时 ， 则 应 避免 这 种 简略 用 法 ， 这 么 做 才能 让 
用 户 更 容易 了 解 程序 ， 确 保 日 后 程序 新 版 本 加 入 新 选项 时 ， 不 会 产生 意外 的 结果 。 


在 Shell 语言 里 ， 没 有 一 种 简单 的 方式 来 通过 给 名 称 添 加 明确 的 前 绥 来 指定 该 名 称 可 以 
与 长 名 称 进行 匹配 ， 所 以 我 们 必须 提供 所 有 的 替代 用 法 。 


有 时 长 选项 名 称 会 通过 前 置 两 个 连 字号 经 编辑 后 纳入 旧式 程序 中 , 这 是 为 了 与 原始 选项 
区 分 。 以 新 式 程序 代码 来 说 ， 我 们 允许 一 个 或 两 个 连 字 号 ， 它 可 以 通过 重复 case 选 择 
器 里 的 缩写 并 加 入 额外 连 字 号 ， 完 成 程序 改版 。 


”我 们 也 许 会 使 用 通 配 字符 编写 case 选择 器 以 匹配 : --a* | -a* )。 但 我 们 认为 这 是 
无 法 接受 的 松散 实现 方式 ， 因 为 它 允 许 匹配 和 那些 写 出 来 的 名 称 全 然 不 同 的 名 称 。 


针对 --all 选项 , 我 们 只 要 通过 把 变量 a11 重新 设置 为 yes 来 记录 找到 选项 的 事实 即 
可 : 





=sall | ==ai | <sa | al | =al | =a:} 
all=yes 


在 每 个 case 块 之 后 的 双 分 号 是 必 备 的 一 一 除了 最 后 一 个 case 以 外 。 我 们 也 可 以 将 这 上段 
写 得 更 紧凑 些 : 
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-all 1 --al 1. ~-a | -all i -al | ra ) ail =Yes， 5 


上 面 这 种 方式 , 当 双 分 号 出 现在 它们 自己 的 行 上 上 时 ， 比较 容易 验证 所 有 的 情况 都 被 适当 
地 终止 , 而 且 对 于 在 块 里 附加 额外 的 语句 也 较为 容易 。 适度 使 用 缩 进 编辑 则 有 助 于 程序 
的 解读 ， 还 能 强调 程序 逻辑 结构 ， 这 几乎 在 所 有 程序 语言 里 都 适用 。 


以 GNU 处 理 --help 需 求 的 惯例 是 : 在 标准 输出 上 , 显示 如 何 使 用 程序 的 简短 摘要 , 且 
立即 以 成 功 状态 码 退 出 (在 POSIX 与 UNIX 都 为 0)。 对 大 型 程序 而 言 ， 摘 要 应 包含 每 
个 选项 的 简短 说 明 ， 不 过 我 们 的 程序 很 小 ， 不 需要 额外 的 说 明 。 由 于 问号 ?是 Shell 的 
通 配 字 符 ， 所 以 我 们 必须 在 case 选择 器 里 ， 以 引号 框 起 来 : | 


--help | --hel | --he | --h | ‘~--?' |] -help | -hel | -he | -hl :-?’' ) 
usage_and_exit 0 


同样 地 ， GNU 惯例 也 会 针对 -Version 选项， 在 标准 得 出 上 产生 一生 (通常 是 这 样 ) 
报告 结果 ,并 立即 以 成 功 状态 退出 。 同样 的 情形 也 应 用 到 其 他 种 类 的 状态 要 求 选项 (可 
能 出 现在 大 型 程序 里 ) 上 上， 例如- -author、--bug- reports. CODELone. 


--License、--where-from 等 : 


--version ] --Versio |.--versi | -~--vers | --ver ] --ve [ SV | 人 
-version | -versio | -versi | -wet 和 | ‘Yer 于 Se | a 
Vernsion 、 a : ， a 1 
exit 0 


case 选择 器 -*) 会 匹配 剩 下 的 所 有 选项 ， 我 们 会 在 标准 错误 输出 填报 告 非 法 选项 ,并 调 
用 usage () 函数， 提醒 用 户 用 法 为 何 ， 再 立即 以 失败 状态 码 (1) 退出 


一 *) 


error "Unrecognized option: $1" 


标准 错误 输出 与 标准 输出 的 差异 在 各 软件 闻 都 不 尽 相 同 ， 且 在 交互 模式 下 使 用 命令 时 ， 
用 户 不 会 感觉 到 差异 , 因为 两 者 数据 流 都 闹 到 相同 的 显示 设备 。 如 果 程 序 为 过 沥 器 的 角 
色 , 则 错误 信息 与 状态 报告 , 像 --help 与 -version 选 项 所 产生 的 输出 ,都 应 流 至 标准 
错误 输出 , 这 人 么 一 来 才 不 致 让 管道 有 混乱 的 数据 出 现 ， 否则 ， ed ee 

由 于 状态 报告 是 GNU 世界 近期 的 新 产物 ， 程 序 实现 仍 在 进化 中 ,标准 尚未 出 现 。 

是 POSIX 还 是 传统 的 UNIX 文件 似乎 都 未 对 此 议题 做 出 任何 说 明 。 


最 后 一 个 case 选 择 器 *) 是 匹配 上 述 选项 以 外 的 所 有 状态 。 它 有 点 类 似 C、C++ 以 及 Java 
语言 里 switch 语 句 的 aefault 选 择 器 , 包括 它 的 做 法 一 直 都 是 外 不错 的 构想 , 即便 它 
的 内 容 是 空 的 ,也 能 向 读者 说 明 : 所 有 可 能 出 现 的 状态 我 们 都 考虑 到 了 。 这 在 ,匹配 指 
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出 我 们 已 经 处 理 完 所 有 的 选项 ,所 以 可 以 退出 循环 。 由 于 我 们 已 处 理 完 所 有 可 能 的 情况 ， 
所 以 这 里 用 终结 关键 字 来 结束 case 语句 : 

*) 
break 


我 们 现 已 经 到 了 选项 循环 的 最 后 。 正 好 在 它 的 最 后 一 条 语句 之 前 , 我 们 使 用 shi ft 以 抛 
弃 现 在 已 被 处 理 的 第 一 个 参数 ， 且 能 移 到 参数 列表 的 下 一 个 项 目 。 人 当 参 
数 计数 $# 到 达 零 时 ， 最 终 的 循环 会 结束 : 


shift 
done 


从 循环 中 退出 时 , 所 有 选项 都 已 处 理 , 而 且 和 参数 列表 里 剩 下 的 就 是 环境 变量 名 称 以 及 要 
寻找 的 文件 了 。 我 们 将 变量 名 称 存储 在 envvar 中 ， 且 如 果 至 少 还 有 一 个 参数 留 下 来 时 ， 
我 们 就 丢弃 第 一 个 参数 : 


envvar="$1" 
test S$# -gt 0 g&& shift 


剩 下 来 的 参数 可 以 " $8" 取得 ， 我 们 避免 将 它们 存储 在 变量 内 ， 例 如 files="$8"， 因 
为 文件 名 中 如 果 有 空格 将 无 法 正确 地 被 处 理 : 内 傣 的 空格 将 成 为 参数 的 分 隔 符 。 


因为 有 可 能 用 户 提供 的 环境 变量 是 PATH， 我 们 为 了 安全 性 因素 会 重 设 ， 这 时 我 们 会 检 
查 该 变量 ， 并 适当 地 更 新 envvar: 


test "x$envvar" = "xPATH" gE envvar=OLDPATH 


开头 的 x 是 常见 的 此 处 它 是 为 了 避免 变量 的 展开 (如果 此 展开 是 以 一 个 连 字 号 开头 ) 
与 test 的 选项 相 混 湛 。 


至 此 , 所 有 参数 都 已 处 理 , 我 们 要 进入 最 坏 手 的 部 分 : 使 用 Shell 的 eval 语句。 我 们 在 
énvvar 里 已 经 拥有 了 环境 变量 的 名 称 ; 可 以 "$envvar" 取得 ,但 我 们 现在 要 的 是 它 
的 展开 。 我 们 也 想 要 将 冒号 分 隔 字 符 转换 成 一 般 的 空白 分 隔 字 符 。 如 果 MYPATH 为 用 户 
所 提供 的 名 称 ， 我 们 便 会 构建 参数 字符 种 '${' “$envvar*'}' ， 也 就 是 Shell 展开 为 
'$ {MYPATH} ' 的 等 同 物 。 两 边 的 单 引号 是 为 了 避免 它 更 进一步 地 展开 。 该 字符 串 之 后 会 
传 给 eval，eval 会 将 其 视 为 两 个 参数 ， echo 与 $ {MYPATH}。eval 在 环境 下 导 找 
MYPATH， 假 设 找到 /bin:/usr/bin: /home/jones/bin, 就 执行 展开 的 命令 : echo 
/bin:/usr/bin: /home/jones/bin, 接着 将 /bin:/usr/bin: /home/jones/bin 传 

给 管道 直到 tr 命令 将 冒号 转换 空格 字符 ， 会 产生 /bin /usr/bin /home/jones/bin, 
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两 边 的 反 引 号 (或 是 现代 Shell 使 用 的 $(...)) 将 其 转换 为 指定 给 airpath 的 值 。 在 
此 不 输出 eval 的 任何 错误 信息 ， 我 们 将 其 传送 到 /dev/null: 


dirpath=‘eval echo '${'"$envvar"'}' 2>/dev/null | tr : ' 


我 们 花 了 这 么 长 的 段落 , 解释 一 个 短 短 的 dirpath 语 名 的 设置 , 你 就 可 以 知道 这 有 多 麻 
烦 。 简 单 来 说 ，eval 对 程序 语言 来 说 是 如 虎 添 翼 。 


讨论 完 eval, 接 下 来 的 程序 就 比较 好 了 解 了 。 首先 是 一 些 健康 检查 (sanity check), 处 
理 所 有 可 能 会 引发 问题 的 异常 情况 : 每 一 个 好 程序 都 应 该 有 这 类 的 检测 , 以 避免 声名 狼 
藉 的 垃圾 信息 输入 、 垃 圾 信息 输出 (garbage-in, garbage-out) 症状 。 要 留意 的 是 最 后 一 
个 对 空 文件 列表 进行 的 健康 检查 : 并 不 输出 任何 错误 报告 。 这 是 因为 任何 程序 在 处 理 列 
表 时 都 可 能 会 遇 到 空 列 表 : 如 果 没 有 事情 要 程序 去 做 ， 则 除了 成 功 信 ER 要 
输出 任何 报告 : 


# 针对 错误 状态 进行 健康 检查 
if test -2z "$envvar" 
then 
error Environment variable missing or empty 
elif test "x$dirpath" = "x$envvar" 
then 
error "Broken sh on this platform: cannot expand $envvar" 
elif test -z "$dirpath" 
then 
error Empty directory searckh path 
elif test S$# -eq 0 
then 
exit 0 
和 


接 下 来 还 有 三 个 嵌 套 循环 : 最 外 面 的 是 处 理 参数 文件 或 模式 , 居中 循环 则 处 理 查找 路 径 
下 的 目录 , 最 里 面 循环 匹配 单一 目录 下 的 文件 。 按 照 这 样 的 次 序 安 排 循环 的 目的 ,是 为 
了 在 移 到 下 一 个 文件 之 前 , 让 每 个 文件 都 能 完整 地 处 理 。 相 反 的 循环 顺序 ， 只 会 让 用 户 
更 混 湛 ,因为 所 有 的 文件 报告 都 会 混杂 在 一 起 。 在 开始 中 间 循 环 前 ， i 
为 空 字符 串 ， 因 为 稍 后 我 们 将 用 它 来 决定 是 否 找 到 任何 东西 : 
for pattern in "$@" 
do 
result= 
for dir in $dirpath 
do 


for file in $dir/$pattern 
do 


在 最 里 面 的 循环 ，test -f 告诉 我 们 $file 是 否 存在 以 及 是 否 是 一 个 常规 文件 (如果 
是 符号 性 连接 也 为 真 ， 因 为 它 终究 会 指向 一 个 常规 文件 )。 如 果 是 ， 则 将 它 记 录 到 
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result: 中 ,并 以 echo 命 令 报 告 到 标准 输出 ,而 如 果 上 默认 的 报告 仅 应 用 第 一 个 ， 则 我 
们 会 跳出 最 内 部 与 居中 的 循环 。 否则 ;: 循环 会 继续 通过 剩 下 的 匹配 文件 ,可 能 产生 更 多 
的 输出 结果 : 
if test -££ "$file" 
then fy 
result="$file"” | a 
echo $result Va 
和 test "$all" = no" && break 2 . .. 
7 
可 rdone 
| done ee 


这 个 程序 里 ; te 人 
分 已 纳入 最 内 部 御 环 里 的 3file 存 在 检测 由; 不 过 ; 具有 一 个 较 复杂 的 循环 体 , 这 样 的 
测试 会 比较 理想 , 也 很 容易 做 到 , 仅 需 一 条 单独 语句 : test -d s$dir |1.continiies 


当 居中 循环 完成 时 , 我 们 已 经 以 $pattern 查 找 过 所 有 查找 路 径 下 的 目录 了 ,而 Tesult 
会 握 有 最 后 匹配 的 名 称 ， 如 果 找 不 到 匹配 则 为 空 。 


我 们 测试 展开 式 $result 是 否 为 空 ， 如 果 是 ， 则 则 在 标准 错误 输出 上 报告 找 不 到 的 文件 ， 
并 将 EXITCODE 里 的 错误 计数 值 加 1 (在 warning 函数 里 ), 然后 继续 外 层 的 循环 以 处 理 
下 一 个 文件 : 


test -z "$result" && warning "$pattern: not found" 
done 


在 处 理 完 外 层 的 循环 后 ， 我 们 会 在 查找 路 径 下 的 每 个 目录 里 进行 每 一 个 被 要 求 的 匹配 ， 
并 准备 好 返回 给 调用 程序 。 现在 ,5 只 剩 下 一 个 小 问题 待 解决 ; 0 
范围 0 至 125， 如 第 6 章 的 表 6- 5 所 示 ， 这 里 我 们 将 Bo 设置 为 125: 


, test SEXITCODE ot 125 EE EXITCODE= 125 


我 们 的 程序 可 说 是 很 完整 。 程序 的 最 后 一 个 语句 : 会 返回 退出 状态 给 多 进程， 这 是 所 有 
模范 UNIX 程序 应 该 做 的 。 在 这 种 和 方式 下 , 父 进程 可 测试 退出 状态 ， 以 知道 子 进程 是 成 
功 或 者 失败 ; 


exit SEXITCODE 


例 8-1 里 , 我 们 给 出 了 pathfind 的 完整 内 容 ， 其 中 去 控 了 注 种 ， 你 看 到 的 就 是 Shell 看 
到 的 程序 。 去 掉 注 释 与 空 行 ， 整 个 程序 约 90 行 。 


例 8- 1: 查找 输入 文件 的 路 径 ， 


#1 /bin/sh = 
# ne 
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# 在 查找 路 径 下 寻找 一 个 或 多 个 原始 文件 或 文件 模式 ， 
# 查找 路 径 乃 由 特定 的 环境 变量 所 定义 。 


使 用 --all 选项 时 ， 在 路 径 下 的 每 个 目录 都 会 被 查找 ， 
而 非 停 在 第 一 个 找到 者 。 


IFS=" 


# 

# 标准 输出 所 产生 的 结果 ， 通 常 是 查找 路 径 下 找到 的 每 个 文件 之 第 一 个 实体 的 完整 路 径 ， 
# 或 是 “filename: not found” 的 标准 错误 输出 。 

# 

# 如 果 所 有 文件 都 找到 ， 则 退出 码 为 0， 

# 否则 ， 即 为 找 不 到 的 文件 个 数 ( 非 0) 

# (Shell 的 退出 码 限 制 为 125) 

# 

# 

# 语法 : 

# pathfind [--all] [--?] [--help] [--version] envvar patternt{s) 
# 

# 

# 


OLDPATH="$PATH* 


PATH=/bin: /usr/bin 
export PATH 


error{() 

{ 
echo "s$@" 1>&2 
usage._and_ exit 1 


} 


Usagel) 
{ 

echo "Usage: S$PROGRAM [--all] [--?] [--help] [--version] envvar Patternt(s) 
} 


usage_and exit{) 
{ 

usage 

exit $1 
} 


versiont{) 
{ 

echo "*$PROGRAM version S$VERSION" 
} 


warning() 
{ 
echo "s$@" 1>&2 
EXITCODE= “expr S$EXITCODE + 1. 


all=no 
envvar= 
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EXITCODE=0 
PROGRAM=` basename 5$0 
VERSION=1.0 


while test S$# -gt 0 


do 
case $1 in 
--all | --al | -~--a | -all | -al | -a ) 
all=yes 
--help | --hel | --he | --h | '--?' | -help | -hel | -he | -h | '-?' ) 
usage_and_ exit 0 
--version | --versio | --versi | --vers | --ver | --ve | --v | \ 
-version | -versio | -versi | -vers | -ver | -ve | -v) 
version 
exit 0 
—*) 
error "Unrecognized option: $1" 
*) 
break 
esac 
shift 
done 


envvar="$1" 
test S$# -gt 0 && shift 


test "x$envvar” = "xPATH" && envvar=OLDPATH 
dirpath=`eval echo '${'"$envvar"'}' 2>/dev/null | tr : ' ' 


# 为 错误 情况 进行 健全 检测 
if test -Z "$envvar’" 
then 
error Environment variable missing or empty 
elif test "x$dirpath" = "x$envvar" 
then 
error "Broken sh on this platform: cannot expand $envvar" 
elif test -2 "$dirpath" 
then 
error Empty directory search path 
elif test S$# -eq 0 
then 
exit 0 
fi 


for pattern in "*$@" 

do 
result= 
for dir in $dirpath 
do 
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for file in S$dir/Spattern 


do 
if test -f "$file" 
then 
result="$file" 
echo $result . 
test "$all” = "no" && break 2 
fi 
done 
done 
test -z "$result && warning "Spattern: not foungd" 


done 


# 限制 退出 状态 是 一 般 UNIX 实现 上 的 限制 
test SEXITCODE -gt 125 && EXITCODE=125 


exit SEXITCODE 二 
本 市 最 后 展示 程序 的 几 个 简单 测试 ,使 用 UNIX 系 统 都 会 有 的 一 个 查找 路 径 一 一 PATH。 


每 个 测试 会 包括 退出 码 的 显示 : $? ,所 以 我 们 可 以 验证 错误 的 处 理 。 首 先 , 我 们 检测 在 
线 帮 助 (help) 与 版 本 (version) 选项 : 


$ pathfind -h 


Usage: pathfind [--alll] [--3] [--help] [--version] envvar patternt{s) 
$ echo 8$? Re 
0 


S pathfind -~-version 
pathfind version 1.0 
$ echo $7? 


下 一 步 ， 我 们 使 用 错误 的 选项 并 且 址 漏 参数 ， 看 看 会 出 现 什么 样 的 错误 报告 ， 


$ pathfind --help-me-out 

Unrecognized option: --help-me-out 

Usage: pathfind [--all] [--?] [--help] [--version] envvar pattern!(s) 
$ echo $? 

1 


$ pathfind 

Environment variable missing or empty 

Usage: pathfind [--all] [--?] [--help] [--version] envvar patternt{s) 
$ echo $7? : : 

1 


$ pathfind NOSUCHPATH la 
Empty directory search path 


Usage: pathfind [--all] [--?] [--help] [--version] envvar pattern(s) 
$ echo $7? 
1 


接 下 来 我 们 提供 一 些 无 意义 的 文件 名 : 
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小 
Oo 
挤 








$ pathfind -a PATH foobar 
foobar: not found 

$ echo $? 

BR 


$ pathfind -a PATH "name with spaces" 
name with spaces: not found b 

$ echo $? 

1 


测试 空 的 文件 名 列表 : 


$ pathfind PATH 
$ echo $? 
0 


如 果 我 们 突然 按 Cn 中 的 程序 ， 看 看 会 发 生 什 么 事 : 


$ pathfina AT fco 
S Coho $? 
130 


退出 码 为 128 + 2, 是 指标 志 数字 2 被 捕捉 ， 并 中 止 程序 。 在 此 特定 的 系统 上 上 ， 它 是 INT 
示 志 ， 对 应 于 键盘 中 断 字符 的 交互 式 输 入 。 


今 为 止 , 错误 报告 都 像 预期 的 那样 出 现 。 现在 让 我 们 寻找 一 个 已 知 存在 的 文件 , 然后 
再 试 试 -a 选项: 


$ pathfind PATH 1g 

/usr/local/bin/1ls . 

$ echo $? 

0 国 a 3 


$ pathfind -a PATH lg 
/usr/1local/bin/1s 
/bin/1ls 

$ echo $? 


接 下 来 ， 检查 引号 内 通 配 字符 模式 的 处 理 ， 共 必须 匹配 我 们 已 知 存在 的 文件 ， 


S$ pathfind -a PATH '?gsh’ 
/usr/1local/bin/ksh 
/usr/local/bin/zsh 
bin/csh 

/usr/bin/rsh 
/usr/bin/ssh 


然后 再 以 同样 方式 匹配 不 存在 的 模式 ， 


$ pathfind -a PATH ‘'*junk*' 
*junk*:; not found 
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接 下 来 是 大 型 的 测试 : 寻找 此 系统 里 的 一 些 C 与 .C++ 编译 器 : 


$ pathfind -a PATH c89 C99 cc C++ ec gece g++ icc lcc ?gcc pgcc 
c89: not found 
c99; not. found 
/usr/bin/cc 
/usr/local/bin/c++ 
/usr/bin/c++ 
CC: not found 
/usr/local/bin/gcc 
/usr/bin/gcc: 
/usr/local/gnat /bin/gcé 
. /usr/local/bin/g++ 
/usr/bin/g++ 
/opt/intel_cc_80/bin/icc 
/usr/local/sys/intel/compiler70/ia32/bin/icc 
/usr/local/bin/1lcc 
/usr/local/sys/pgi/pgi/linux86/bin/pgcc 
/usr/local/sys/pgi/pgi/linux86/bin/pgCc 
$ echo $? . 
3 | 


一 个 awk 的 单 命令 行 ， 可 用 来 验证 退出 码 计数 逻辑 的 运行 5 就 像 我 们 所 预期 的 那样 。 我 们 
尝试 了 150 个 不 存在 的 文件 ， 但 退出 码 正确 地 限制 在 125; 


$pathfind PATH $(awk 'BEGIN { while (n < ‘150) printf("x.%d ", ++n). }: ) 
X.1: not found 


X.150: not found 


$ echo $? 
125 


我 们 最 后 的 测试 会 验证 标准 错误 输出 以 及 标准 输出 是 否 都 如 预期 的 那样 ， 方式 是 将 两 个 
数据 流 捕 捉 到 两 个 独立 的 文件 中 ， 再 显示 它们 的 内 容 : 
$ pathfind -a PATH c89 gcc g++ >foo .out 2>f00. err 


$ echo $? 
二 


上 


$ cat foo.out 
/usr/local/bin/gcc 
/usr/bin/gcc 
/usr/local/gnat /bin/gcc 
/usr/local/bin/g++ 
/usr/bin/g++ 


$ cat foo.err 
c89: not found 


现在 , 我 们 可 以 说 pathfind 命 令 成 功 了 。 尽管 有 部 分 Shell 向 导 仍 可 能 发 现 里 头 有 隐匿 
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的 问题 ( 注 1) ,而且 无 法 替换 大 规模 的 测试 ,特别 是 具有 非 预期 的 输入 时 ; 例如 附录 了 
中 “UNIX 的 文件 里 有 什么 ? ”部 分 注释 所 提 到 的 模糊 测试 。 理 想 上 的 测试 ， 应 结合 有 
效 参数 与 至 少 一 个 以 上 的 无 效 参数 。 因 为 我 们 有 三 个 主要 选项 的 选择 , 每 个 都 有 几 种 缩 
写 方式 ， 所 以 就 有 (6 + 1) x (10 + 1) x (14 + 1) = 1155 种 选项 组 合 。 每 个 组 合 都 必须 
搭配 0 到 3 个 (至少 要 三 个 ) 参数 作 测试 。 我 们 的 程序 在 实现 上 对 选项 缩写 的 处 理 方式 
并 无 不 同 ,所 以 只 需要 较 少 的 必要 测试 。 然 而 ， 当 戴 上 测试 帽子 时 ， 我 们 必须 先 将 程序 
看 作 一 个 内 容 未 知 的 黑 盒子 ,但 是 仍 有 文件 说 明 其 特定 的 行为 。 之 后 , 我 们 应 再 做 不 同 
思维 的 测试 , 潜入 程序 内 部 ， 了 解 它 是 怎么 运行 的 ,然后 想 出 如 何 破 坏 它 。 而 且 测试 的 
数据 也 要 经 过 设计 , 要 能 够 对 程序 的 每 一 行进 行 彻底 的 测试 ,详尽 的 测试 是 相当 元 长 乏 
味 的 ! 


因为 没有 文件 的 软件 可 能 是 无 法 使 用 的 软件 , 且 因 为 很 少 有 书籍 会 介绍 如 何 编写 使 用 手 
册 ， 所 以 我 们 将 pathfind 的 手册 页 放 在 附录 A。 


pathfing 确 实 是 很 有 用 的 练习 。 除 了 它 是 个 方便 的 新 工具 程序 , 而 标准 的 GNU、 POSIX 
以 及 UNIX 工具 集 里 都 没有 之 外 ， 它 还 拥有 所 有 大 多 数 UNIX 程序 的 主要 组 成 部 分 : 参 
数 解析 、 选 项 处 理 、 错误 报告 以 及 数据 处 理 。 ee 
个 步 又 : 加 入 - 选项 以 终止 起 始 的 Shell 命 令 行 , 立即 设置 TFS 及 PaTH。 该 程序 代码 的 
好 处 是 可 以 再 利用 , 只 需 作 一 点 点 修改 ; 2 前 置 的 注释 标志 、IFS 与 PATH 的 分 配 、 
5 个 辅助 函数 、 处 理 参数 的 while 与 case 语 句 , 而 且 至 少 外 部 循环 会 遍历 收集 命令 行 上 
的 文件 。 


作为 一 个 练习 ， 你 可 以 开始 考虑 ， 是 不 是 该 为 pathfind 的 这 些 扩展 做 一 些 改变 : 


。 ”将 标准 输出 与 标准 错误 输出 的 重 定向 存储 到 /dev/null, 并 加 上 --quiet 选 项 抑 
制 所 有 输出 , 所 以 唯一 会 看 到 的 便 是 指出 是 否 找到 匹配 的 退出 码 。 这 个 好 用 的 程序 
功能 , 在 cmp 的 -s 与 grep 的 - 4 选项 里 已 经 有 了 。 


。 加 上 --trace 选项 ， 将 每 个 要 测试 的 文件 完整 路 和 径 响 应 到 标准 错误 输出 。 


。 ”加 入 --test x 选项 , 让 test 的 -f 选 项 可 以 置换 为 其 他 值 , 例如 -h (文件 为 符 
号 性 连接 )、-r (文件 是 可 读 取 的 )、-x (文件 是 可 具 执行 的 ) 等 。 


。 ”让 pathfing 扮 演 过 滤器 功能 ; 如 果 命 令 行 上 没有 指定 的 文件 名 , 则 它 应 该 自 标准 
输入 读 取 文件 列表 。 这 么 做 会 对 程序 的 架构 与 组 织 产 生 什 么 样 的 影响 ? 


。 ”修补 所 有 你 找 得 到 的 安全 漏洞 ， 例 如 最 新 安全 性 公告 所 列 的 议题 。 





注 1: ”有 名 的 安全 性 漏洞 包括 了 其 改 输入 字段 分 隔 字 符 (IFS); 签 改 查找 路 径 ， 以 恶意 命令 蔡 
换 原 可 信 的 命令 ; 上 暗中 将 反 引 号 命令 、Shell meta 字 符 以 及 控制 字符 〈 含 NUL .与 换行 符 
号 ) 置 入 参数 中 ; 引发 非 预期 的 运行 时 中 断 ; 传送 超过 各 种 内 部 Shell 资 源 限制 长 度 的 参 
数 。 | 
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如 全 表 上 人， 
8.2 软件 构建 自动 化 
由 于 UNIX 可 运行 在 多 种 平台 上 ; 因此 在 构建 软件 包 时 ， 较 常见 的 实现 方式 是 从 源 代码 
开始 安装 , 而 非 直 接 安 装 二 进 制 包 。 大 型 的 UNIX 站 点 常 由 数 个 平台 结合 而 成 ， 对 管理 
者 而 言 , 最 元 长 麻烦 的 工作 就 是 将 包 安装 在 这 些 不 同 的 系统 上 。 而 这 正 是 自动 化 的 好 机 
会 。 很 多 软件 开发 人 员 ， 已 直接 采用 GNU 项 目下 所 开发 的 软件 包 惯例 ， 包 括 : 


。 包 以 压缩 存档 文件 package-x.y.z.tar.gz (或 package- x.y.z.tar.bz2) 的 形 
式 发 布 ， 文件 解 开 后 将 出 现在 package-x.y.z 目 录 下 。 


. 顶层 configure 脚本 通常 是 由 GNU 的 autoconf 命令 ， 通过 A in 或 

”configure.ac 文 件 里 的 规划 列表 自动 产生 。 执 行 该 脚本 时 , 有 时 得 加 上 一 些 命令 

行 选项 , 便 能 产生 定制 的 C/C++ 头 文件 ,通常 叫做 config.h、 衍 生 自 Makefilie' in 
(模板 文件 ) 的 一 个 定制 Makefile， 并 且 有 时 候 还 会 有 其 他 文件 。 


。 Makefile 目标 (target) 的 标准 集 已 详 述 于 《The GNU Coding Standards》 中 ， 
有 all (全 部 构建 )、check (执行 验证 测试 )、 clean (删除 不 需要 的 中 间 文 件 )、 
Gistclean (恢复 目录 到 它 的 原始 发 布 ), 以 及 install (在 本 地 系统 上 安装 所 有 
必需 的 文件 ) 。 1， SR 

。 ”被 安装 的 文件 位 于 Makefile 文 件 里 prefix 变 量 所 定义 的 默认 树 状 结构 目录 下 ， 
并 且 可 在 配置 时 使 用 --prefix=dir 命 令 行 选项 进行 设置 , 或 是 通过 一 个 本 地 系 
统 范围 的 定制 文件 提供 。 上 默认 的 prefix 为 /usr/local, 但 无 权限 的 用 户 可 能 得 使 
由 $HOME/local, 或 是 用 SHOME/ arch'`/1LIocal 更 好 ， 其 中 arch 是 一 条 命令 ， 

会 显示 定义 平台 的 简短 说 明 。 GNU/Linux 与 Sun Solaris 提 供 的 是 /pin/arch, 
在 其 他 平台 年， 安装 自 已 的 实 作 程序 时 ， 通常 只 是 使 用 简单 的 Shell 脚本 包装 
(wrapper) ， 再 搭配 适当 的 ecHa 命令 。 


接 下 来 的 工作 就 是 建立 脚本 ， 它 被 给 定 一 个 包 列表 ,在 目 前 系统 下 的 许多 标准 位 置 之 一 ， 
找到 它们 的 源 分 发 , 将 它们 复制 到 远程 主机 列表 中 的 每 一 个 , 在 那里 解 开 它 们 ,然后 编 
译 并 使 其 成 为 合法 可 用 状态 。 我 们 发 现 自 动 化 安装 步 又 不 是 陪 明 的 做 法 ;: 构建 日 志 必 须 
先 审慎 地 检查 。 


这 个 脚本 必须 让 UNIX 站 点 里 的 所 有 用 户 都 能 使 用 , 所 以 我 们 不 能 在 它 里 面 内 侯 有 关 特 
定 主机 的 信息 。 我 们 假设 用 户 已 经 提供 两 个 定制 文件 : directories 列 出 要 查找 
包 分 发 文件 的 位 置 ， 以 及 userhosts 列 出 用 户 名 称 、 远 程 主机 名 称 、 远 程 构建 目 
录 以 及 特殊 环境 变量 。 我 们 将 这 些 及 其 他 相关 文件 放 在 隐藏 目录 $SHOME/ .build 下 , 以 
降低 混乱 的 程度 。 然 而 ,因为 在 同一 个 站 点 内 所 有 用 户 下 的 来 源 目 录 列 表 可 能 都 相 类 似 ， 








www.TopSage.com 


208 Jj 第 98, 章 


所 以 我 们 包括 一 个 合理 的 默认 列表 ， 就 不 再 需要 directories 文件 5 了 


有 时 候 构 建 要 能 够 只 在 一 般 构 建 主机 的 子 集 主机 上 完成 ,或 是 使 用 不 在 一 般 位 置 里 的 存 
档 (archive) 文件 ， 因 此 ， EAI 


我 们 在 这 里 开发 的 脚本 可 以 这 样 调用 
en ”在 所 有 主机 上 构建 这 两 个 包 
”8$ build-all --on loaner.example.com gnupg-1.2.4 在 指定 主机 上 构建 包 
$ build-all --aource $HOME/work butter-0.3.7 从 非 标准 位 置 中 构建 包 


这 些 命令 其 实 做 了 很 多 事 , 下 面 我 们 大 致 列 出 处理 每 个 指定 的 软件 包 及 在 默认 的 或 先 
定 的 构建 主机 上 安装 的 步骤， 

1. 在 本 地 文件 系统 下 寻找 包 分 发 文件 。 

将 分 发 文件 复制 到 远程 构建 主机 。 

“初始 化 远程 主机 上 的 登录 连接 。 

切换 到 远程 构建 目录 ， 并 解 开 分 发 文件 。 

切换 到 包 构 建 目录 并 设置 、 构 建 与 测试 包 。 

将 初始 化 主机 上 的 所 有 答 出， 分别 为 每 个 包 与 构建 环境 ， 记 录 在 分 开 的 日 和 文件 
中 。 


在 远程 主机 上 的 构建 以 并 行 了 方式 进行 ， 所 以 安装 执行 所 需要 的 总 时 间 是 以 最 慢 的 那 台 机 
器 为 基准 , 而 不 是 把 所 有 单个 时 间 求 和 。 对 于 动 辑 安装 百 种 以 上 不 同 环境 系统 的 我 们 来 
说 ,幸好 有 build-all 程序 ， 这 也 为 包 开发 人 员 提 供 了 一 个 不 错 的 挑战 。 


build-all 脚 本 很 长 ， 所 以 我 们 分 部 分 来 展示 ， 最 后 再 显示 完整 程序 代码 于 本 章 的 例 
8-2。 开头 使 用 一 - 般 的 介绍 性 注释 标 头 : 


#! /binysh - 
xn 在 一 台 或 多 台 构建 主机 上 ， 建立 一 个 或 多 个 包 。 


Wi 


和 A DD 


build-all [ --? ] 
[ ==all on ] 
ee Wl PR 
==Check "> .。" '] 
-~-Configure "..." ] , 
--énvironment "...” ]】] 
--help ] 
--logdirectory dir ] 
--on "[user@]host[:dir][,envfile] ..." ] 


六 提 提 着 着 间 划 将 夫 
ee ee 
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， 和 ”[ --source "dir ...." ] 
# [ --uSserhosts "file(s}" ] 
”和 非 ww “<-version. 
二 塌 Package (S) 
a 
# 可 选用 的 初始 文件 : 和 ; 
# SHOME/ .build/directories list of source directories 
# SHOME/ .build/userhosts list of [user@]host[:dir] [, envfile] 
我 们 将 字段 分 隔 字符 IFS 初始 化 为 “换行 符号 一 空白 一 定位 字符 ”: 
TFS 


接 下 来 ， 将 查找 路 径 设 置 为 一 个 有 限制 的 列表 ， 这 么 一 
来 在 初始 化 主机 上 的 所 有 子 进程 都 可 使 用 它 

PATH=/usr/local/bin: /bin: /usr/bin 

export PATH 
我 们 设置 访问 权限 掩 码 ( 见 附录 B 中 关于 默认 权限 的 讨论 ) ， 允 许 用 户 与 组 具有 完整 的 
访问 权限 , 除 此 之 外 的 其 他 人 则 仪 具 读 取 权 限 ,组 给 定 了 完整 访问 权限 , 是 因为 在 我 们 
的 部 分 系统 中 ， 有 超过 一 个 以 上 的 系统 管理 者 在 处 理 软件 安装 ， 这 些 管理 员 都 属于 一 个 
共同 的 可 信任 组 。 相同 的 掩 码 稍 后 在 远程 主机 上 也 会 需要 ; 所 以 我 们 遵循 程序 惯例 ， 以 
大 写字 母 命名 : | | 

UMASK=002 

umask SUMASK 


它 已 经 证 明 将 工作 的 各 部 分 委托 给 个 别 的 函数 处 理会 很 方便 ,这 么 一 来 我 们 就 能 够 将 代 
码 块 限制 在 适当 的 大 小 了 。 程序 里 定义 有 9 个 这 样 的 函数 。 i 在 讨论 到 程序 主要 
内 容 时 再 介绍 。 


A 


ALLTARGETS= 程序 或 make target 构建 用 

altlogdir= 日 志文 件 的 另 一 个 位 置 

altsrcdirs= 来 源 文件 的 另 一 个 位 置 

ALTUSERHOSTS= 列 出 额外 主机 的 文件 

”CHECKTRARGETS=check +.. ..， “执行 包 测 试 的 make target 名 称 : 

. CONFIGUREDIR=. : ”配置 脚本 的 子 目 录  “. 

CONFIGUREFLAGS= 配置 程序 的 特殊 标志 

LOGDIR= 本 地 目录 ， 以 保留 日 志文 件 


userhosts= 在 命令 行 上 指定 的 额外 构建 主机 | 
我 们 也 需要 参天 多 次 bui16-al1 的 初始 化 文件 所 在 的 目录 所 以 这 里 给 它 一 个 名称 ， 


BUILDHOME= $HOME/ build 
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接 下 来 是 两 个 脚本 ， 它 们 是 在 构建 的 开始 与 结尾 在 远程 主机 上 的 登录 Shell 内 执行 ， 以 
提供 进一步 的 定制 与 日 志文 件 的 报告 。 这 两 者 都 克服 了 使 用 ksh 或 sh 的 登录 Shell 时 在 
secure-Shell (ssh) 上 遭遇 的 问题 ,这 两 个 Shell 不 会 读 取 $SHOME/ .profile， 除 非 它 
们 是 以 登录 Shell 被 启动 , 而 且 如 果 secure Shell 是 以 命令 行 参数 被 调用 , 则 它 也 不 会 安 
排 任何 处 理 ， 就 像 puild-all 一 样 : 


BUILDBEGIN=./.build/begin 
BUILDEND= ./ .build/end 


正如 例 8-1 的 pathfind 做 法 ， 设 置 最 终 退 出 码 : 


EXITCODE=0 
没有 默认 的 额外 环境 变量 ; 
EXTRAENVIRONMENT= 任何 额外 的 环境 变量 都 会 传人 
稍 后 会 需要 的 程序 名 称 ， 所 以 我 们 在 这 里 存储 其 值 与 版 本 编号 : 
PROGRAM=` basename $0°. ， 记 住 程序 名 称 
VERSION=1 .0 记录 程序 版 本 编号 


我 们 还 在 构建 日 志文 件 名 中 纳入 时 间 发 , 以 DATEFLAGS 的 日 期 格式 ,取得 以 时 间 排 序 后 
的 文件 名 。 去 除 标点 符号 后 ， 就 是 ISO 8601:2000 所 建议 的 格式 〈 注 2) 。 我 们 之 后 会 在 
远程 主机 上 以 同样 的 方式 调用 aate， 所 以 我 们 希望 这 个 复杂 的 日 期 格式 ， 仅 在 一 个 地 
方 定义 ， 


DATEFLAGS="+%Y .gm 。 %d. %H. SM.%S" 


在 我 们 的 站 点 ， 与 远程 主机 通信 使 用 的 是 secure Shell, 而 且 scp 与 ssh 两 者 我 们 都 需 
要 。 仍 沿用 旧式 不 安全 的 远程 Shell (remote Shell) 的 站 点 ， 则 会 更 换 为 rcp 与 sh。 
开发 期 间 ， 我 们 设置 这 些 变量 为 "echo scp" 与 "echo ssh"， 这 么 做 可 以 让 日 志 记 录 
我 们 做 过 的 事 ， 而 不 必 真 的 去 做 它 : es 

SCP=ScP 

SSH=ssh 
对 有 些 用 户 与 系统 配置 文件 设置 而 言 ，s sh 会 建立 个 别 的 加 密 通 道 (channel) 供 X 
Window System 流 量 使 用 , 而 我 们 在 软件 构建 过 程 中 几乎 完全 用 不 到 这 样 的 功能 , 所 以 





注 2: 见 htip://www.iso.ch.cate/d26780.html 的 《Date elements and interchange formats - 
Information interchange - Representation of dates and times》。 该 标准 以 YYYY-MM- 
DDThh:mm:ss 或 YYYYMMDDThhmmss 的 格式 表示 上 日期。 为 了 可 移植 性 ， 第 一 种 格式 
的 冒号 不 应 出 现在 文件 名 里 ， 而 第 二 种 格式 ， 用 户 看 起 来 比较 吃力 。 


www.TopSage.com 


产生 脚本 7 (Al 


可 以 加 入 -x 选项 ,关闭 此 功能 , 以 降低 启动 时 的 负载 , 除非 SSHFLAGS 环 境 变 量 之 设置 
提供 了 不 同 的 选项 集 : 


SSHFLAGS=$ {SSHFLAGS--x)} 


在 初始 文件 中 使 用 Shell 风格 的 注释 固然 方便 , 不 过 我 们 还 是 可 以 使 用 STRIPCOMMENTS 
将 它们 删除 ， 这 是 假设 此 注释 字符 并 未 出 现在 文件 中 


STRIPCOMMENTS='sed -e s/#.*$//"' 


我 们 也 需要 一 个 过 滤器 ， 将 数据 流 过 滤 为 内 缩 状 (比较 好 看 的 输出 )， 并 将 换行 字符 置 
换 为 空格 : 


INDENT="awk '{ print \"\t\t\t\" \$0 }'" 
JOINLINES="tr '\n' '\040'" 


接 下 来 是 两 个 可 选用 的 初始 文件 的 定义 : 


defaultdirectories=$BUILDHOME/directories 
defaultuserhosts=$BUILDHOME/userhosts 


最 后 的 初始 化 会 设置 来 源 目录 的 列表 : 


SRCDIRS="` $SSTRIPCOMMENTS S$defaultdirectories 2> /dev/null" 


由 于 命令 替换 会 将 换行 字符 转换 成 空格 且 以 空白 字符 凹 入 的 方式 排列 ,在 初始 化 文件 里 
的 目录 ， 可 以 写成 一 行 一 个 或 多 个 目录 的 方式 。 


如 果 用 户 定制 文件 不 存在 ，STRIPCOMMENTS 会 在 SRCDIRS 中 产生 一 个 空 字符 串 , 所 以 
我 们 要 测试 这 样 的 情况 ， 并 把 SRCDIRS 重新 设置 为 合理 的 默认 值 列表 ， 这 个 列表 根据 
我 们 多 年 的 使 用 经 验 得 来 : 


test -Z "$SRCDIRS" && \ 
SRCDIRS=" 


/UBL/ LouaL/ re 
/usr/local/gnu/src 
$HOME/src 
$HOME/gnu/src 

/tmp 

/usr/tmp 

/var/tmp 


在 行 结尾 处 ，| | 和 && 运算 符 后 面 接着 一 个 反 斜 杠 是 C-Shell 家 族 的 要 求 ， 而 这 么 作对 


Bourne-Shell 家 族 也 无 碍 ;, ,当前 目录 (. ) 为 此 列表 的 成 员 ， 因为 我 们 可 能 就 只 是 将 要 构 
建 的 包 文 件 下 载 到 一 个 任意 位 置 。 
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现在 初始 化 该 做 的 事 都 照顾 到 了 , 所 以 我 们 已 经 准备 好 处 理 命 令 行 选 项 。 这 个 任务 在 所 
有 Shell 脚本 下 的 处 理 方式 都 相同 : while ( 当 ) 参数 仍 在 时 ， 选 择 case 语句 的 一 个 
合适 的 分 支 来 处 理 该 参数 , 然后 再 shift ( 移 到 ) 参数 列表 里 的 下 一 个 参数 ,并 继续 循 
环 。 任 何 需 要 先 消耗 另 一 个 参数 的 分 支 , 会 进行 移 位 。 正 如 我 们 之 前 做 过 的 ,我 们 允许 
单个 与 双 个 连 字 号 的 选项 形式 ， 而 且 我 们 也 允许 它们 缩短 为 任何 唯一 性 的 字 首 ， 


while test S$# -gt 0 
do 
case $1 in 


--all、--cd、--check，--configure 情 况 会 存储 接 下 来 的 参数 ; 丢弃 任何 前 一 个 存 
下 来 的 值 : 


--all | --al | --a | -all | -al | -a ) 
shift 
ALLTARGETS="$1" 


--cd |] -cd } 
shift 
CONFIGUREDIR="$1" 
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--cCheck | --chec | -~-che | --ch |] -check | -chec | -che | -ch ) 
shift 
CHECKTARGETS="$1"; 


con eldie | --configur | --configu | --config | -~-confi | \ 
--eonf.| ~-~-con | --co 1 \ l 
-configure | -configur | 0 全 9 ] -config | -confi | \ 
-conf 1 -con | -co ) 

shift 


CONFIGUREFLAGS="$1" 
--environment 选项 可 让 用 户 在 构建 主机 上 ， 提 供 配置 期 环境 变量 的 一 次 性 设置 ， 而 
无 须要 修改 构建 配置 文件 : 


--environment | --environmen | --environme | --environm | --environ 1 \ 
--enviro | --envir | --envi | --env | --en | --e | \ 
-environment | -environmen | -environme | -environm | -environ j] \ 
-enviro | -envir | -envi | -env | -en | -e ) 

shift 


EXTRAENVIRONMENT=" $1" 
-~-help 情况 全 调用 我 们 尚未 被 显示 的 函数 之 并 终止 程序 ， 


--help | --hel | --he | --h | '--?' | -help 1 -hel | -he | -h | ':-?' )》 
usage_and_exit 0 


7 
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--logdirectory 情况 也 存储 接 下 来 的 参数 ， 丢 弃 任 何 已 存储 的 值 :; 


-~logdirectory | --logdirector | --logdirecto | --logdirect 1 \ 

--logdirec | --logdire | --logdir | --logdi | -~logd | --log | \ 

10 

-logdirectory | -logdirector | -logdirecto | -logdirect | \ 

-logdirec | -logdire | -logdir | -logdi ,| -logd .| -log | -lo | -1) 
shift | , 


altlogdir="$1" 
altlogdir 变 量 乃 是 当 要 被 写 人 所 有 构建 日 志文 件 的 默认 目录 不 是 我 们 所 想 要 的 时 ,用 
来 作为 指定 目录 的 名 称 。 


--on 与 --source 和 情况 只 是 累积 参数 ,所 以 用 户 可 以 写成 -s "/this/dir /that/dir" 
或 -s /this/dir -s /that/dir: 
--on | --o | -on | -o) 
Shift 


userhosts="$userhosts $1" 


了 了 


-~-Source | --sourc | --Sour | --sou | --so | --s | \ 


-SGOurce | -sourc ] -sour ] -sou | -so | -s.) 
shift 


altsrcdirs="S$altsrcdirs $1" 
由 于 altsrcdirs 会 以 空格 分 隔 列 表 的 组 成 部 分 ， 所 以 含 空格 的 目录 名 称 可 能 无 法 正确 
地 处 理 ， 请 避免 使 用 这 样 的 名 称 。 


--userhosts 情 况 也 为 累积 参数 , 但 是 具有 检查 另 一 个 可 计 反 的 目录 位 轩 鬼 人 外 功能 ， 
所 以 我 们 直接 把 工作 移交 给 函数 : 


--userhosts 1. --userhost | --userhos | --userho | --userh | 
--user |] --use | ~-u8 | --u TAN b 
-userhosts | -userhost | -userhos | -userho 1 se 1 \ 
-user | -use | -us | -u ) 

shift 


set_userhosts $1 


77 


--version 和 情况 显示 版 本 编号 ， 并 以 成 功 状态 码 退 出 : 


--version | --versio | --versi | --vers | --ver | --ve | --v | \ 
-version | -versio | -versi | -vers | -ver | -ve | -v) 

version 

exit 0 


27 
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下 一 个 到 最 后 一 个 情况 会 捕捉 任何 未 被 认可 的 选项 ， 再 以 错误 状态 终止 : 


-*) 


error "Unrecognized option: $1" 


最 后 一 个 情况 是 匹配 选项 名 称 以 外 的 任何 东西 , 所 以 它 必 须 是 一 个 包 名 称 , 然后 退出 选 
项 循环 : 
起 } 
. break . 


esac 


shift 会 舍弃 刚 处 理 过 的 参数 ,然后 继续 下 一 个 循环 重复 : 


shift 
done 


我 们 还 需要 一 个 邮件 客户 端 程序 报告 日 志文 件 的 位 置 。 遗憾 的 是 : 有 些 系统 提供 的 是 初 
级 的 mail 命令 ， 它 不 接受 主题 行 ， 但 另 有 mailx 命令 可 以 做 这 事 。 其 他 缺乏 mailX 
的 系统 , 在 mail 中 却 有 支持 主题 行 。 也 有 其 他 系统 两 者 功能 都 有 ， 其 中 一 个 会 连接 到 
另 一 个 。 由 于 build-all 必须 在 不 做 任何 改变 之 下 才能 运行 于 所 有 UNIX 版 本 上 , 所 以 
我 们 不 能 把 想 用 的 邮件 客户 端 程序 名 称 直接 编码 (hardcode)。 事实 上 , 我 们 必须 动态 地 
查找 它 ， 使 用 我 们 在 所 有 UNIX 中 所 找到 的 列表 


for MAIL in /bin/mailx /usr/bin/maiIx'/usr/sbin/imnatlx /usr/ucb/mailx \ 
/bin/mail /usr/bin/mail ， 


do 

test -x $MAIL && break 
done Pe | $ 
test -x $MAIL || error "Cannot find mail client" 


如 果 用 户 提供 额外 的 来 源 目录 , 则 我 们 会 将 它们 置 于 默认 列表 的 前 端 。 取代 默认 列表 的 
可 能 性 不 一 定 要 有 任何 的 值 ， 所 以 我 们 不 提供 这 样 做 的 方式 :. 


SRCDIRS="Saltsrcdirs SSRCDIRS" 


最 终 userhosts 列 表 的 正确 设置 是 很 复杂 的 , 且 需 要 解释 。 针 对 列表 , 这 里 有 三 个 潜在 的 
数据 来 源 : | 
。 ”命令 行 --on 选项 ， 将 它们 的 参数 增加 到 userhosts 变量 。 


。 ”命令 行 --userhosts 选 项 会 将 文件 (每 一 个 包含 零 或 多 个 构建 主机 描述 ) 增加 到 
ALTUSERHOSTS 变量 。 


。 ”defaultuserhosts 变 量 包 含 了 提供 默认 构建 主机 规格 的 文件 之 名 称 ,只 有 当 无 命 
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“ 令 行 选项 提供 它们 时 才 会 被 使 用 。 对 大 部 分 build-all 的 引用 来 说 ， 该 文件 提供 
了 完整 的 构建 列表 。 


如 果 userhosts 变量 里 有 数据 ， 人 都 会 
加 进去 ， 以 获得 最 终 的 列表 ; 

if test -n "$userhosts" 

then 


test -n "SALTUSERHOSTS" && 性 
USerhosts="Suserhosts ‘S$STRIPCOMMENTS SALTUSERHOSTS 2> /dev/null. 


否则 , 如 果 userhosts 变 量 为 空 , 则 仍 有 两 种 可 能 作法 。 如 果 ALTUSERHOSTS 已 设置 ， 
我 们 会 保持 原封 不 动 ， 如 果 未 设置 ， 则 将 其 设置 为 默认 文件 。 接 着 ， 我 们 指定 
ALTUSERHOSTS 里 的 文件 的 内 容 给 userhosts 变量 ， 成 为 最 终 列表 : 
else 
test -2z "S$ALTUSERHOSTS" && ALTUSERHOSTS="S$defaultuserhosts" 
userhosts="`. $STRIPCOMMENTS S$ALTUSERHOSTS 2> /dev/null*" 
A 人 ee | 
在 开始 真正 的 操作 之 前 , 为 确保 我 们 至 少 有 一 个 主机 ， 有 必要 进行 健康 检查 。 虽 然 在 此 
种 情况 下 最 里 面 的 循环 不 会 被 执行 ， 但 我 们 还 是 要 避免 产生 不 必要 的 目录 与 日 志文 件 。 
如 果 userhosts 为 空 ， 则 有 可 能 是 用 户 大 意 了 ， 所 以 这 时 可 以 适时 地 提醒 他 这 个 程序 的 
用 法 : | 
test -z "$userhosts" && usage and exit 1 
最 后 是 程序 最 外 部 的 循环 , 用 来 处 理 包 。 如 果 参 数列 表 为 空 , 则 Shell 不 会 执行 循环 体 ， 
这 正 是 我 们 要 的 。 这 个 循环 很 大 ， 所 以 我 们 一 次 只 介绍 几 行 即 可 : 


for p in “S$@" 
do 


在 来 源 目录 列表 里 , 寻找 包 存 档 文件 的 工作 委托 find_package 函 数 来 做 ， 它 会 将 结果 
留 在 全 局 性 变量 : PARFILE ( 包 存 档 文件 ，package archive file) 里 : 


find_ package "Sp" 


如 PARFILE 为 空 , 则 我 们 就 把 使 用 方式 错误 的 信息 发 出 到 标准 错误 输出 , 再 继续 处 理 下 
一 个 包 : 


if test -Z "S$PARFILE" 
then 

warning "Cannot find package file S$p" 

continue 
fi 
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另 一 方面 , 如 果 未 提供 日 志 目 录 , 或 有 提供 但 不 是 目录 或 是 不 能 写 入 ; 则 我 们 会 试图 在 

i. 建立 名 为 1ogs 的 子 目录 。 如 果 找 不 到 该 目录 ; 或 无 法 写 
， 则 我 们 会 试 着 将 日 志文 件 放 在 用 户 的 $HOME/ .build/1logs 目录 或 临时 目录 内 。 

1 会 消失 ， 所 以 只 

它 作为 没 办 法 时 的 最 后 手段 。 


LOGDIR="$altlogdir" 
if test -2z "S$LOGDIR" -oO ! -d "S$LOGDIR" -oOo ! -Ww " $LOGDIR" 
then i 

for LOGDIR in "‘dirname S$PARFILE‘ /logs/$p" $BUILDHOME/]ogs/$p \ 
， /usr/tmp /var/tmp /tmp 
do de: 3 
test -d "S$LOGDIR" ||] mkdir.-b: "$LOGDIR" 2> /dev/null  . 
test -Q "$LOGDIR" -a ~wW "S$LOGDIR” && break | 

done Ne 
fi 





注意 ;dirname 命令 是 与 8.1 节 介绍 过 的 basename 命令 一 起 的 。dirname 会 截断 其 参数 里 最 后 
斜 杠 之 后 的 所 有 字符 ,以 从 完整 路 和 侍 名 称 中 恢复 一 -个 目录 路 径 ,并 将 结 果 显 示 到 标准 输出 ; 


$ dirname /usr/1local/bin/nawk 0 | “报告 目录 路径 
/usr/local/bin : 2 : 


et ee 


$ dirname whimsical-name 报告 目录 路 径 


dirname 就 像 Dasename 一 样 ,， 视 其 参数 为 单纯 的 文字 字符 串 ， 而 不 会 去 检查 目录 是 否 真 
的 存在 于 文件 系统 中 。 


如 省 略 参 数 ， 则 dirname 的 行为 模式 由 运行 时 定义 。 


RU 
和 





我 们 会 告知 用 户 日 志文 件 建立 于 何 处 , 并 将 该 位 置 记录 于 电子 邮件 中 , 因为 用 户 有 可 能 
在 大 型 包 构 建 完 成 之 前 就 忘 了 日 志文 件 的 位 置 ; 
msg="Check build logs for Sp in ‘hostname. :$LOGDIR" 


echo "$msg" 
echo "$msg” | $MAIL -Ss. omg $USER 2> /Gev/null 


ee _ 步 便 是 通过 由 大 循环 ， 以 并 和 处理 的 方式 , 令 每 台 远程 主机 开始 构建 
行 包 。 我 们 再 二 次 将 大 部 分 的 工作 交 给 函数 来 做 。 这 也 会 结束 最 外 部 循环 : 


for u in Suserhosts 
do 
build one Su 
done 
done 
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builq_one 的 调用 为 连续 性 的 ,所 以 我 们 可 以 更 容易 地 识别 出 通信 的 问题 。 然 而 ， 它们 
在 远程 构建 主机 上 起 始 的 工作 都 以 后 台 执 行 ， 所 以 build_one 其 实 很 快 就 完成 。 


现在 , 程序 已 完成 它 的 工作 。 最 后 的 语句 是 将 累加 状态 码 最 高 限定 在 125， 并 将 状态 码 
返回 给 调用 者 : 


test $EXITCODE -gt 125 && EXITCODE=125 
exit $EXITCODE 


我 们 已 将 许多 构建 过 程 留 在 后 台 执行 ,将 它们 的 输出 信息 不 断 累 积 在 相关 的 日 志文 件 里 ， 
并 选择 无 论 结果 为 何 都 会 退出 ， 所 以 build-all 才 得 以 执行 得 这 么 快 。 


有 人 可 能 会 倾向 于 另 一 种 设计 方式 ， 就 是 先 不 返回 ， 一 直 等 到 所 有 后 台 进程 都 完成 时 再 
返回 。 要 改 成 这 种 方式 也 很 简单 : 只 要 在 最 后 的 exit 语句 之 前 插入 以 下 这 条 语句 : 


wait 


我 们 不 觉得 这 种 方式 好 ， 因 为 它 会 挂 在 终端 窗口 上 直到 所 有 构建 完成 为 止 ， 或 是 如 果 
build-all 在 后 台 执 行 , 它 的 完成 通知 可 能 会 混合 许多 其 他 的 输出 。 如 果 它 出 现 得 太后 
面 的 话 ， 可 能 还 会 找 不 到 。 


现在 , 我 们 对 程序 的 运行 已 有 大 概 的 蓝图 ， 该 是 审视 隐 匮 在 函数 内 的 细节 的 时 候 了 。 我 
们 将 根据 使 用 上 的 方便 依次 介绍 。 


usage 是 一 个 简单 的 函数 : 在 标准 输出 上 打印 短 的 帮助 信息 ， 使 用 嵌入 文件 (here 
document) 形式 ， 而 非 一 连 串 echo 语句 : 


usagel() 
( a 
Cat <<EOF 
Usage: 
$PROGRAM [ --? ] 
= "ee ] 
= Wiis ] 
--Check "..." ] 
--Configure "..." ] 
--environment "..." ] 
--help ] 
--logdirectory dir ] 
--on "[user@]host[:dir]{[,envfile] ..." ] 
--Source "dir ..." ] 
~--uUserhosts "file(s)" ] 
--Version ] 
ackage (s) 


A 


EOF 
} 


usage_and_exit 调用 usage， 然 后 以 提供 的 状态 码 作为 它 的 参数 而 退出 : 
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usage_and _ exit () 
{ 

usage 

exit $1 


version 在 标准 输出 上 显示 版 本 编号 : 


version{) 
{ 

echo "$PROGRAM version $VERSION" 
} 


error 在 标准 错误 输出 上 显示 它 的 参 ee 息 ， 然后 以 错误 状态 码 终 上 程序， 


. error() 
证 
echo ”SG@n 1>&2 
Usage_anad_exit 1 


} 


warning 在 标准 错误 输出 上 显示 其 参数 ， 在 EXxITCODE 内 加 1 (警告 计数 )， 并 返回 ， 


warning() i 
{ 

echo' "$s@" >&2 . 

EXITCODE=` expr SEXITCODE + 1. 
} 


主 程序 代码 最 外 部 的 循环 是 由 调用 find_package 开 始 ， 该 函数 会 循环 遍历 来 源 目录 以 
寻找 包 ， 并 处 理 我 们 还 未 提 及 的 细节 : 


find package () 
{ 
# Usage: find package package-x.y.2z 
‘base=‘echo "$1" |] sed -e 's/[-_][.]*[0-9] .*$//'. 


PAR= 
PARFILE= 
for srcdir in SSRCDIRS 
do 
test "$srcdir" = *." && srcdir=" Dwd 


for subdir. in "$base" "" 


do 
# NB: update package setting jin build one{) if this list changes 
find file $srcdir/s$subdir/s$1l.tar.gz "tar xfz" && return 
find_file $srcdir/$subdir/$1.tar.Z "tar xfz" &&k return 
find_file $srcdir/s$subdir/$1.tar "tar Xxf’* && return 
find file $srcdir/$subdir/s$1.tar.bz2 "tar xfj" && return 
find_file $srcdir/$subdir/s$1 .tgz "tar xfz”" && return 
find_file $srcdir/$subdir/$1.2zip "unzip -q" && return 


find_ file $srcdir/ssubdir/s$1.jar "jar xf" && return 
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done 
done 


} 


很 明显 :内 部 循环 里 的 find_package 是 在 识别 多 种 存档 文件 格式 ， 而 另 一 个 图 数 
find_file 则 是 在 执行 真正 的 操作 时 被 调用 , 当 它 成 功 时 , 可 立即 返回 。 内 部 循环 的 第 
二 次 迭代 中 ，subdir 为 空 ， 且 路 径 名 称 里 也 有 两 个 连续 的 斜 杠 ， 不 过 这 没关系 ， 我 们 
在 附录 B 中 有 说 明 。 虽然 这 个 程序 代码 乍 看 上 去 与 例 8-1 里 的 pathfina 命令 类 似 ， 然 
而 ， 这 里 我 们 需要 在 每 个 目录 下 寻找 许多 文件 ， 且 针对 它们 做 点 不 一 样 的 处 理 。 


我 们 在 本 节 一 开始 提 过 : .tar .gz 的 存档 文件 格式 是 很 普遍 的 。 不 过 当然 还 是 可 能 出 
现 其 他 压缩 与 命名 结构 (scheme)。tar 是 UNIX 主要 的 命令 ， 尽 管 其 他 操作 系统 里 也 
有 tar 的 实 作 , .但 它们 都 不 包含 在 标准 发 布 中 。InfoZ 认 格式 .( 法 3). 为 许多 人 协同 开发 
的 产物 ， 目标 是 支持 任何 操作 系统 上 所 使 用 的 压缩 存档 文件 ， 而 Java 的 jar. ( 注 4) 文 
件 使 用 的 就 是 InfoZip 格式 。 在 fing.package 昌 的 循环 内 容 疝 完全 处 理 这 些 文件 ， 


以 小 型 站 点 来 看 , 将 包 存 稍 文件 存储 在 单一 目 录 下 或 许 是 合理 的 ， , 例如; /usr7 localy 
src。 然 而 ， 当 存档 文件 不 断 增 大 时 ， 这 样 的 组 织 方式 就 会 变 得 很 货 重 。 在 我 们 的 站 点 

， 每 个 包 都 被 给 定 它 自 己 的 来 源 目录 ， 例 如 gawk 3.1.4 版 的 存档 文件 ， 我 们 就 将 它 
i 3 Led tar. gz， 而 该 版 本 的 构建 日 志 则 存储 
于 /usr/local/gnu/src/gawk/logs/gawk-3.1.4。 每 个 包 目 录 内 的 WHERFE-FROM 文 
件 都 记录 了 包 在 Internet 上 的 主要 存档 文件 位 置 , 以 便 我 们 检查 较 新 的 版 次 。 一 般 来 说 ， 
我 们 会 保留 包 存档 文件 最 新 的 数 版 , 因为 有 一 天 可 能 在 网 络 无 法 运行 , 或 远程 主要 存档 
文件 站 点 无 法 连接 时 , 这 时 当 你 需要 重建 包 时 , 就 派 得 上 用 场 了 。 因此 , find_package 
里 的 循环 体会 从 包 名 称 中 将 版 本 编号 截断 ， 存 储 结果 到 base 中 ， 并 在 退回 去 查阅 
ssrcdir 之 前 ， 它 会 先 在 $Ssrcdir/$base 中 查找 包 。 


我 们 发 现 保留 构建 日 志 相当 有 用 ， 因 为 在 安装 一 段 时 日 后 , 当 你 在 探究 bug 而 需要 有 关 
使 用 哪个 编译 器 与 要 套用 哪些 选项 等 细节 时 , 一定 会 用 得 到 它 。 而 且 , 对 一 些 可 移植 性 
较 差 的 包 来 说 , 经 常会 需要 在 构建 程序 中 , 或 甚至 是 针对 来 源 文件 做 些小 调整 ， 以 利 构 
建 完成 。 如果 该 信息 都 记录 在 日 志文 件 里 ， a = 此 
时 间 了 。 


find_file 国 数 是 用 来 测试 包 存 档 文 件 的 可 读 性 以 及 存在 与 否 ,再 将 其 参数 记录 在 两 个 
全 局 变量 里 ， 用 国人 态 结果 。 这 样 大 大 地 简化 了 find._package 程序 代码 : 


注 3: 见 htip://www.info-zip. org/, . A , - 
注 4: Jar: 文件 可 : 包含 校 验 和 与 数字 签名 可 用 以 检测 文件 是 有 误 点 寺 下 ， :斯 以 它们 出 现 


“在 一 般 的 软件 分 发 中 是 越 来 越 频 党 了 .。 
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find_file() 
{ 
# Usage: 
# find_file file program-and-args 
# Return 0 (success) if found,'1 (failure) if not found 


if: test ~ "$1 
then 


PAR="$2" 用 来 提取 的 程序 与 参数 
PARFILE="$1" 要 提取 来 源 的 实际 文件 
return 0 : 

else 
return 1 

fi 


} 


set_userhosts 函 数 允 许 用 户 指定 确切 的 路 径 (可 能 是 与 目前 目录 相对 的 路 径 ), 也 可 
以 是 在 $BUILDHOME 初 始 化 目录 中 所 找到 的 , 来 提供 userhosts 文 件 。 对 于 已 知 只 能 运行 
在 某 种 限定 环境 下 的 包 来 说 ,这 么 做 便于 将 构建 主机 群 按照 编译 器 .平台 或 包 加 以 分 组 。 
可 以 提供 任何 数目 的 userhosts 文件 ， 所 以 我 们 只 要 简单 地 将 它们 的 名 称 累 积 在 
ALTUSERHOSTS 里 就 可 以 了 : 


set_userhosts() | 
{ 
# Usage: set_userhosts filel(s) 
for u in "$@" 
do 
i tost: = 站 = OU 
then 
ALTUSERHOSTS="$ALTUSERHOSTS Su 
elif test -r "SBUILDHOME/Su" 
then 和 
ALTUSERHOSTS=" $ALTUSERHOSTS $BUILDHOME/S$u" 
else 
error. "File not found: $u" 


fi 
done 
} i , | , 
最 后 一 个 函数 build_one, 便 是 处 理 远程 主机 上 的 包 作 业 。 因 为 函数 太 长 ; 我 们 拆 为 几 
个 部 分 讲解 : 
build_one() 
{ 
# Usage: 
# build one [user@]host{[:build-directory][,envfile] 
现在 ， 除 了 在 注释 标志 中 有 简短 提 及 外 ， 我 们 并 未 精确 地 指出 $SHOME/ .builda/ 
userhosts 初 始 文件 里 到 底 是 什么 数据 。 这 里 我 们 得 切 分 成 4 段 信息 : 远程 主机 上 的 用 
户 名 称 (与 初始 化 主机 上 的 不 相同 时 ) 、 主 机 名 称 本 身 、 应 该 构建 的 远程 主机 上 已 存在 
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的 目录 名 称 ， 以 及 构建 时 可 能 的 特定 额外 环境 变量 的 设置 。 在 Shell 脚本 里 ， 将 这 些 信 
息 分 别 存 储 在 独立 的 文件 里 会 很 不 方便 ， 所 以 我 们 借用 远程 与 secure Sheli 的 语法 ,将 
它们 整合 在 一 起 ， 并 以 分 隔 字 符 隔 开 ， 像 这 样 : 


jconesefreebsd.example.ccm:/local/buila,SHOME/ .build/c99 


仅 主机 名 称 部 分 是 强制 性 的 。 


我 们 也 会 需要 用 到 这 些 部 分 ， 所 以 这 里 使 用 echo 与 sed 将 参数 分 割 。 通 过 eval 传递 
参数 ， 并 展开 名 称 中 的 任何 环境 变量 (例如 $SHOME/ .build/c99 里 的 HOME) ， 以 避免 
在 userhosts 文 件 里 , 将 系统 特定 的 登录 目录 路 径直 接 编码 。 为 方便 起 见 , 如 果 没 有 指 
定 ， 则 我 们 会 提供 /tmp 作为 默认 的 构建 目录 : 


arg= eval echo $1°" 展开 环境 变量 

userhost="‘echo Sarg | sed -e 's/:.*$//' 删除 冒号 与 冒号 后 的 
任何 东西 

user="‘echo Suserhost | sed -e s'/@.*$/7)'°"* | 取出 用 户 名 称 

test "$user" = "$userhost" && user=$USER ,如 为 空 ， 则 使 用 $USER 

host="`echo $userhost | sed -e s'/^[^8]*@//';" .取出 主机 信息 . 

envfile="“echo Sarg | sed -e 's/~[~,]*,//' "2 “环境 变量 文件 名 称 .… 

test "$envfile" = "$arg" && envtiles “dev/null 

builddir="`echo $arg | sed -es’ A/ *,//'! -e 7 BAM | be 

test i$puilddir" = "$arg” && ‘builddir=/tmp : 2 


我 们 希望 能 找 一 个 较 固 定 (安定 ) 的 临时 目录 给 予 buildair 使 用 ， 但 不 同 的 UNIX 厂 
商 之 间 , 临时 目录 的 名 称 并 不 一 致 。 虽然 几 行 额外 程序 便 能 做 些 测 试 ，: 不 过 我 们 还 是 假 
定 大 部 分 的 用 户 会 指定 一 个 合理 的 构建 目录 。 除了 ee alos ii 
原因 ， 另 外 还 有 一 些 理由 让 我 们 认为 /tmp 不 是 builadir 好 的 选择 ; 


。 在 许多 系统 上 ，/mp 是 一 个 分 别 的 文件 系统 ， 它 可 能 太 小 以 至 于 无 法 处 理 庞大 的 
包 构 建树 状 结构 。 


。 ”在 部 分 系统 上 , /tmp 是 以 不 具备 执行 程序 权限 的 方式 加 载 的 : 这 可 能 导致 
configure 的 测试 与 验证 检查 失败 。 


。 ”在 某 些 Sun Solaris 的 版 本 下 ， 由 于 不 明 的 因素 ， 无 法 让 本 地 编译 器 编译 /tmp 下 
的 程序 代码 。 


envfile 工 具 是 相当 重要 的 : 它 让 我 们 能 覆盖 掉 在 configure 里 已 作 的 默认 选择 。 软件 
开发 人 员 当 然 应 尽 可 能 地 测试 各 种 编译 器 ， 以 验证 软件 的 可 移植 性 并 调试 。 通过 选择 不 
同 的 构建 目录 与 envfile 的 值 ， 我 们 可 以 在 同一 台 主机 上 ， 以 不 同 的 编译 器 同时 执行 多 
个 构建 。envfile 文 件 十 分 简单 ， 它 们 只 是 设置 环境 变量 而 已 ， 如 下 所 示 : 
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$ cat $HOME/ .build/c99 

CC=c99 

CXX=CC 
程序 的 下 一 步 : 将 仅 含 文件 名 (bare filename ) 的 部 分 ， 例 , gawk-3.1.4.tar.gz， 存 
储 到 parbase 变量 中 ， 


parbase= basename SPARFILR-、 


包 名 称 〈 例 : gawk-3.1.4) 则 存储 到 变量 package: 


packager'， echo ee \ 
sed * ‘we 's/[.]jar$//' \ 

-e !' A ei \ 

-e 's/[.]tar[.lgz$//’: \ 

-e 's/[.]tar[.1Zz$//’' \ 

-e 's/[.]tar$//' \ 

-e 's/[.]tgz$//' \ 

-e 's/[.]zip$//' 
我 们 使 用 显 式 的 sed 模 式 切 去 字 尾 ， 因为 在 名 称 中 有 太 多 的 点 号 , 较 简 化 的 模式 更 可 信 
赖 。 为 确保 它们 也 可 以 与 旧式 的 sed 实 现 一 起 运行 , 我 们 是 以 分 开 的 替换 命令 而 不 是 以 
单一 扩展 正则 表达 式 指 明 它们 。 如 需 支持 已 加 入 到 find_package 的 新 存档 文件 格式 ， 
则 也 应 在 此 处 更 新 这 些 编辑 器 模式 。 


下 一 步 便 是 将 存档 文件 复制 到 远程 主机 上 的 构建 目录 , 除非 它 已 经 出 
能 是 通过 加 载 文件 系统 或 是 映射 的 方式 。 这 种 做 法 在 我 们 的 站 点 很 党 
操作 可 市 省 时 间 与 磁盘 空间 。 


虽然 我 们 通常 会 避免 编号 成 聊天 程序 ,不 过 在 每 次 与 远程 系统 通信 之 前 先 执行 echo 合 
令 其 实 是 相同 的 : 它 让 用 户 得 到 必要 的 反馈 信息 。 远程 复制 是 很 耗 时 的 , 且 很 可 能 会 出 
现 失 败 或 停 灌 不 动 :没有 这 样 的 反馈 信息 ,用 户 很 难 了 解 到 底 为 什么 脚本 执行 了 那么 入 ， 
或 究竟 是 哪 台 主机 导致 错误 的 发 生 。 parbaselocal 变 量 则 是 用 来 区 分 出 存档 文件 的 临 
时 版 本 与 先前 已 存在 之 版 本 的 差别 : 

echo $SSSH.S$SSSHFLRAGS $userhost "test -f SPARFILE" 


if S$SSH SSSHFLAGS $userhost "test -人 $PARFILE" 
then 





现在 该 系统 上 , 可 
见 , 所 以 这 个 检查 


parbaselocal=$PARFILE 

else 人 

parbaselocal=$parbase 

echo $SCP SPARFILE Suserhost:S$builddir 
SSCP S$PARFILE $userhost:S$builddir 

fi . | 


理想 上 ,使 用 管道 解 包 比 较 好 ， 因 为 这 么 做 可 以 将 给 入) 输出 的 量 减 半 ， 另 外 磁盘 空间 
需求 也 会 减 半 。 可 情 的 是 ,只 有 jar 和 tar 可 以 用 该 方式 恋 取 它 们 的 存档 文件: ni 
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是 需要 实际 文件 的 。 实 际 上 ，jar 可 以 读 取 InfoZip 文件 ， 这 让 我 们 可 以 用 jar 置换 
unzip， 并 使 用 管道 。 遗 憾 的 是 ， 编 写本 书 的 时 候 ，j ar 仍 不 够 成 熟 ， 我 们 至 少 就 发 现 
有 一 个 实现 会 卡 在 .zip 文件 的 处 理 上 。 


远程 复制 是 连续 执行 ; 而 非 并 行 处 理 。 后 者 不 是 不 可 能 做 到 ,只 是 会 增加 主要 程序 额外 
的 复杂 性 ， 它 必须 先 寻 找 与 分 发 包 ， 等 待 包 分 发 完成 ， 接 着 再 构建 。 当 然 , 这 人 么 一 来 构 
建 时 间 就 会 比 远程 复制 时 间 长 很 多 ， 所 以 连续 性 复制 不 会 占 去 太 多 的 总 执行 时 间 。 


我 们 的 日 志文 件 以 包 、 远程 主机 ， 及 以 秒 计 的 时 间 避 命名 。 如 果 在 单一 远程 主机 上 执行 
多 个 构建 ， 则 可 能 会 有 文件 名 冲突 的 风险 。 在 日 志文 件 名 内 使 用 进程 编号 变量 , $$, 也 
不 是 个 好 的 解决 方案 , 因为 它 在 build-all 单 一 调用 内 是 固定 常数 。 我们 虽然 可 以 使 用 

$$ 初始 化 计数 器 ， 这 么 做 会 在 每 次 构建 时 增值 且 被 用 在 日 志文 件 的 文件 名 中 ,但 结果 只 
会 让 无 意义 的 数字 和 弄 乱 文件 名 。 解决 方案 是 在 两 个 连续 日 志文 件 的 产生 之 间 , 至 少 具 有 
一 秒 的 间隔 : sleep 正 是 我 们 所 需 的 。GNU 的 date 提供 sN (nanoseconds 十 亿 分 之 
一 秒 ) 格式 项 ， 应 该 可 以 满足 产生 唯一 的 文件 名 的 需求 ， 无 须 用 到 sleep, 但 POSIX 
与 旧式 aate 实现 ,缺乏 这 个 格式 项 。 为 满足 最 大 的 可 移植 性 ， 我 们 就 由 秒 数 处 理 : 

sleep 1 | 

now=" “date $DATEFLAGS" | 

logfile="$package. $host .$now.log" ' 
接 下 来 要 进入 这 个 说 明 的 最 后 部 分 : 用 于 远程 主机 上 实现 构建 的 长 命令 。$ SSH 前 置 
nice 命 令 是 为 了 降低 它 的 优先 权 , 以 避免 与 系统 上 的 交互 式 工 作 竞 争 资源 。 即 便 很 多 工 
作 都 是 在 远程 系统 上 做 的 ， 但 构建 日 志 有 了 时 会 很 大 ， 让 $ssH 要 作 的 事情 变 多 。 


留意 $SSsH 的 第 二 个 参数 是 以 双 引号 界定 的 长 字符 串 。 在 该 字符 串 中 ,以 货币 符号 前 置 
的 变量 将 “于 脚本 的 内 文中 被 展开 ”， 且 在 远程 主机 上 无 须 被 知道 。 


我 们 在 $SSH 参数 字符 串 里 所 需要 用 到 的 命令 语法 根据 远程 主机 上 用 户 的 登录 Shell 而 
定 。 我 们 极 小 心地 限制 该 语法 ， 让 它 能 在 所 有 一 般 性 UNIX Shell 内 正常 运行 ， 这么 一 
来 才能 让 所 有 用 户 , 即便 是 在 不 同 主机 上 、 使 用 不 同 登录 Shell 者 都 能 使 用 build-al1。 
我 们 无 法 要 求 任何 地 方 都 使 用 相同 的 登录 Shell, 因为 在 很 多 系统 上 , 用 户 无 法 选择 自己 
要 用 的 Shell。 替代 方案 就 是 使 用 管道 , 将 命令 流传 给 每 个 主机 上 的 Bourne Shell, 不 过 
这 么 做 会 为 每 一 个 构建 启动 另 一 个 进程 , 而 让 我 们 陷入 更 深 的 混乱 :一 次 处 理 三 个 Shell 
已 经 够 难 的 了 。 
nice $SSH $SSHFLAGS $userhost " 
echo ‘=========================================================! } 

在 登录 Shell 先 出 现在 命令 序列 的 情况 下 ,如 果 $BUILDBEGIN 脚 本 存在 , 则 在 远程 系统 
上 执行 。 这 么 做 可 提供 登录 定制 , 例如 当 Shell 启动 文件 无 法 增加 PATH 变量 时 ( 例 ksh 
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与 sh) 。 它 也 会 将 一 些 额外 的 信息 写 至 标准 错误 输出 或 标准 输出 , 这 样 当 然 也 可 以 写 到 
构建 昌 志 文件 中 .Bourne-Shell 家 族 里 的 Shell 使 用 点 号 命令 来 执行 目前 目录 中 的 命令 ， 
而 C-Shell 家 族 里 的 Shell 则 使 用 source 命令 。bash 与 zsh Shell 支持 这 两 种 命令 。 


问题 是 ,如 果 点 号 命令 指定 的 文件 不 存在 ， 则 有 些 Shell， 包 括 POSIX 的 ， 会 中 止 执行 
点 号 命令 。 这 么 一 来 ， 尽 管 tr ue 命令 是 用 于 条 件 式 的 结尾 处 ， 也 会 使 得 单纯 的 . 
$BUIEDBEGIN 11 true 程序 代码 失败 。 因此 , 我 们 还 会 需要 文件 存在 与 否 的 测试 ,而 
且 也 必须 处 理 source 命 令 。 因为 两 个 Shell 都 认得 点 号 命令 与 source 命 令 两 者 , 所 以 
我 必须 在 单一 -的 复杂 命令 里 做 这 件 事 ， 这 条 命令 依赖 于 布尔 运算 符 相 等 的 优先 权 ; 

: test,. “二 $BUILDBEGIN Cg -。 $BUILDBEGIN 1] \ 


test -f $50TLDBEGIN &&， Source ST 11 SS 
”七 Tue .7 上 


我 们 不 要 用 这 么 复杂 的 语 铭 ， 本 all 严格 的 设计 需求 ， 务求 可 运行 于 所 有 登录 
Shell 中 ， 让 我 们 不 得 不 这 么 做 ， .我 们 也 找 不 到 更 简化 的 可 接受 解决 方案 。 


我 们 假设 在 buila_all 使 用 之 前 ， 已 做 过 启动 脚本 的 调试 了 。 否则 , 如 果 $BUILDBEGIN 
脚本 的 执行 是 在 错误 状态 下 终止 的 话 ， 则 它 可 能 会 被 试图 执行 两 次 。 


长 久 以 来 的 使 用 经 验 告诉 我 们 , 记录 在 构建 日 志 里 的 额外 信息 会 很 有 用 , 所 以 下 面 一 连 
串 的 echo 命令 就 是 为 了 这 个 目的 ， 特 意 安排 的 格式 只 是 为 了 让 日 志文 件 更 容易 阅读 ; 


echo “Package: .SPackage' ; 
echo ‘Archive: $PARFILE!’ 
echo ‘Date: -Snow ;} 
echo 'Local user: $USER: :; 
-echo ‘Local host:: 、” “hostname `， 
echo :Local log..Qirectory: S$LOGDIR' ; 
echo 'Local log filei * “$logfile'’ 
echo ‘Remote user: $user’ 
etho :Remote host: . "$host!: 
echo 'Remote directory:. “: Sbuilddir: ; 


有 时 知道 花 了 多 少时 间 构 建 也 是 很 有 用 的 我 们 有 一 台 较 老 旧 的 系统 ， 在 构建 GNU C 
编译 器 时 花 了 将 近 一 天 )， 所 以 我 们 的 脚本 也 会 报 省 开始 与 结束 的 日 期 。 这 些 全 取 自 于 
远程 主机 ,因为 每 台 主机 的 时 区 有 可 能 不 同 ,也 可 能 会 有 时 间 差 的 问题 , 而 且 稍 后 将 已 
安装 文件 的 时 间 改 与 煌 建 日 志 的 项 目 人 匹配， 也 是 很 重要 的 。 由 于 echo 没有 适用 的 可 
移植 式 用 法 ， 所 以 我 们 使 用 printf: 


printf ‘Remote date: 
date $DATEFLAGS ; 


同样 地 ， 人 但 刘 来 系统 与 GNU A he 息 ， Wt 日 后 的 错误 报告 里 会 需要 
用 到 : 
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printf “Remote uname: 


uname -a || true ;. 

printf :Remote gcc ‘version:. 

gcc -~-version | head -n 1 || echo ; 
printf 'Remote g++ version: 

g++ --version | head -nn 下 1 echo 


由 于 其 他 编译 器 没有 一 _ 致 的 方式 可 取得 版 本 信息 ， Ee 
该 工作 ， 取 而 代 之 的 是 ， 我 们 可 以 自 $BUILDBEGIN 央 本 里 ， 通 过 适当 的 命令 ， 产 生 想 
要 的 报告 。 接 下 来 ， 我们 的 脚本 提供 其 他 信息 如 下 : 


echo 'Configure environment: ‘S$STRIPCOMMENTS Senvfile | SUJOINLINES ' 


echo :Extra _ environment : SEXTRRENVIRONMENT ， ; 
echo ‘Configure directory : SCONFIGUREDIR' }; 
echo 'Configure flags: SCONFIGUREFLAGS'. ;. 
echo 'Make all targets: $ALLTARGETS' 

echo 'Make check targets: SCHECKTARGETS， 


盘 空 间 耗 尽 是 见 的 导致 错误 发 生 的 原因 ， 所 以 我 们 在 构建 的 前 与 后 ， 都 使 用 af 报 
Fe 


echo 'Disk free report for $builddir/$package:’ 
df spbuilddir | SINDENT ; 


configure 与 make 能 被 环境 变量 影响 ， 所 以 我 们 最 后 的 一 道 工作 就 是 排序 志文 
件 标 头 : 
echo 'Environment :， 


env 1 env LC _ ALL=C sort ] SINDENT ; 
echo '’=========================================================' }; 


0 
De 

和 在 本 地 的 设置 相同 ,我 们 也 在 运程 系统 上 设置 权限 挡 码 , 允许 组 成 员 完整 访问 ,并且 
除 此 之 外 的 其 他 人 都 有 读 取 权限 ; 


umask SUMRSK ; 


ee a 所 以 我 们 切换 到 该 目录 ， i 
状态 退出 : 


cd $builddir || exit 1 } 


下 一 步 :删除 所 有 有 旧 的 存档 文件 树 。 这 里 使 用 ri 的 绝对 路 径 , 因为 这 些 命令 拓 行 于 Shell 
交互 模式 下 ， 生生 全 和 丽人 全 


pin/rm -rf $builddir/$package 2 
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有 时 我 们 会 因为 改变 了 编译 器 或 编译 选项 , 而 要 再 执行 一 次 构建 操作 , 所 以 递归 删除 是 
有 其 必要 的 ,这 可 以 确保 我 们 能 够 从 干净 的 分 发 开始 。zm 里 的 -三 选项 是 要 求 静默 地 处 
理 对 于 不 存在 目录 的 任何 抱怨 。 


一 个 递归 文件 树 的 删除 是 相当 危险 的 操作 ， 也 可 能 成 为 攻击 的 目标 。 因 为 package 是 
从 信赖 的 basename 命令 中 取得 ,我 们 能 够 确信 它 不 包含 斜 枉 ， 因 此 可 以 只 参照 到 当前 
目录 。 将 $builddir/ 加 入 到 rm 的 参数 中 , 则 可 提供 起 码 的 安全 性 , 不 过 还 是 不 够 ， 
为 不 管 是 buildair 或 者 是 package 都 可 能 被 设置 为 一 个 点 号 ; 即 当前 的 目录 。 


这 种 情况 确实 会 沦 为 安全 漏洞 , 而 我 们 也 无 法 再 多 作 些 什么 保护 , 所 能 做 的 只 有 警告 标 
语 。 很 明显 ， 这 个 程序 应 该 绝对 不 要 以 root 身份 执行 。 我 们 在 脚本 启动 的 一 开始 ， 就 
使 用 此 语句 ， 则 可 阻止 用 户 这 么 做 : 
test "id -u " -eq 0 && \ 
error For security reasons, this program must NOT be run by root 
在 我 们 的 所 有 系统 里 ,只 有 Sun Solaris 的 ia 缺乏 -u 选 项 的 支持 ,不 过 我 们 设置 了 PATH， 
让 程序 先 找到 GNU coreutil 版 本 的 id。 


注意 : 包 安装 命令 常 告诉 你 :. 请 以 root 账号 构建 与 安装 软件 ， 其 实 你 应 该 要 忽略 此 指示 : 因为 
只 有 极 少 数 的 包 需 要 这 样 的 权限 ， 而 且 ， 即 便 是 要 ， 也 只 有 在 安装 步 又 才 需 要 。 


接 下 来 ， 解 开 存档 文件 : 


SPRR Sparbaselocal 


重要 的 是 你 必须 了 解 : $PRAR 是 在 初始 化 主机 上 被 展开 ， 但 在 远程 主机 上 执行 。 特 别 是 
我 们 假设 tar 是 支持 -j 与 -z 选项 的 GNU 版 本 ,， 且 unzip 与 jar 都 可 用 。 对 于 这 个 
脚本 的 每 个 用 户 , 我 们 都 预期 他 已 在 每 个 远程 主机 上 做 好 Shell 启 动 文件 的 适当 设置 , 确 
保 这 些 程序 都 能 被 找到 。 我 们 不 能 为 这 些 程序 提供 固定 的 路 径 ,因为 这 些 路 径 在 每 个 远 
程 主机 上 都 可 能 不 尽 相同 。 


如 果 存 档 文件 已 复制 到 远程 主机 上 , 则 parbaselocal 与 parbase 会 是 一 致 的 值 , 且 因 
为 远程 主机 已 不 再 需要 包 存 档 文件 ， 所 以 我 们 将 它 删除 : 


test "Sparbase"” = "$parbaselocal" && /bin/rm -f S$parbase ; 


我 们 已 准备 好 切换 到 包 目 录 开 始 构 建 。 对 于 遵循 广泛 使 用 的 GNU Project 惯 例 的 软件 包 
来 说 ; 该 目录 为 包 目录 的 最 顶层 。 遗 憾 的 是 , 有 些 包 会 将 构建 目录 埋 在 文件 树 的 较 深 处 ， 
像 用 来 编写 脚本 以 及 加 速 构建 窗口 系统 界面 的 Tcl 与 Tk 工具 就 是 。 命令 行 的 --cd 选 项 
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提供 了 存储 在 CONFIGUREDIR 里 的 构建 目录 的 相对 路 径 ， 用 来 覆盖 掉 它 的 点 号 〈.) 默 
认 值 ,我 们 接 下 来 会 需要 用 到 package 与 CONFIGUREDIR 这 两 个 变量 以 切换 至 构建 目录 ， 
且 如 果 切 换 失 败 ， 会 以 错误 码 退 出 ; 


cd S$package/SCONFIGUREDIR || exit 1 : 


许多 包 现 已 含有 configsure 脚 本 ， 所 以 我 们 可 以 试 试 它 ， 如 果 找 到 , 则 以 envfile 所 
提供 的 任何 额外 环境 变量 执行 它 。 我 们 也 会 传递 任何 由 --configure 选项 提供 的 额外 
标志 。 大 部 分 包 不 需要 这 类 标志 ， 不 过 有 些 较 复杂 的 就 要 ，; 
test -f configure && \ 
chmod a+x configure && \ 
env “$STRIPCOMMENTS $envfile | $JOINLINES \ 


$EXTRAENVIRONMENT \\ 
nice time .VCconfigure $CONFIGUREFLAGS > 


chmod 命 令 乃 用 来 加 入 执行 权限 , 在 这 里 使 用 的 理由 有 两 个 : 首先 , 由 于 我 们 偶尔 会 遇 
到 缺乏 该 权限 的 包 存 档 文件 , 再 则 , 是 因为 现行 Java 的 jar 存 档 文件 格式 会 忽略 记录 该 
权限 ( 注 5)。 前 置 nice 命 令 可 降低 工作 优先 权 , 这 么 做 可 对 远程 系统 的 影响 降 到 最 低 。 
前 置 time 俞 令 ,， 可 报告 configure 执 行 时间 。 我 们 见 过 一 些 非 常 大 的 配置 脚本 ,这 人 么 
做 有 助 于 记录 它们 的 执行 时 间 以 作为 下 一 版 构建 时 间 的 估计 。 


我 们 现在 要 进入 操作 最 多 的 地 方 : 实际 的 构建 与 包 的 验证 ,一 样 是 前 置 nice time，, 并 
由 --all 与 --check 选 项 (或 它们 的 默认 值 ) 提供 的 make 参数 : 


nice time make $ALLTARGETS && nice time make $CHECKTARGETS ; 


make 命 令 背后 隐藏 了 很 多 工作 ， 不 过 完成 该 工作 的 规则 已 通过 二 开发 人 员 写 在 Makefile 
里 了 ， 我 们 终端 安装 人 员 通 常 不 必 理 会 内 容 是 什 4 。 


我 们 希望 成 功 构建 完成 时 , 在 日 志文 件 内 看 到 报告 类 似 Al11 tests passed! 这 样 的 信 
息 , 或 其 他 容易 理解 的 报告 ， 让 我 们 知道 一 切 都 好 。 验证 测试 是 非常 重要 , 绝 不 应 该 跳 
过 。 即便 是 包 在 开发 站 点 里 已 运行 无 误 , 但 没有 理由 相信 它 在 我 们 的 站 点 里 也 会 运行 得 
这 么 顺利 , 因为 有 这 么 多 的 东西 可 能 导致 它 出 错 : 不 同 的 系统 架构 :编译 器 、 环 境 变量 、 
文件 系统 、 本 地 定制 设置 与 调 校 、 操 作 系 统 版 本 查找 路 径 、 共 享 函 数 库 、 系 统 标 头 文 
件 、X Windows System 默认 值 等 等 ， 很 多 都 有 可 能 导致 错误 发 生 。 | 


我 们 现 已 包装 好 远程 命令 ， 还 伴随 几 行 日 志文 件 中 最 后 的 报告 : 


EGho == 7/ 
echo :Disk free report for $builddir/s$package:"' 





注 5: 这 很 有 可 能 是 设计 上 的 瑕 疯 ， 因 为 底层 的 InfoZip 格式 支持 它 。 
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df $builddir :| .SINDENT ; 
printf 'Remote date: 
date’ SDATEFLAGS ? 


$BUILDEND 脚 本 就 像 $BUILDBEGIN 脚 本 一 样 ， 在 根 目录 下 ， 提供 任何 最 后 的 额外 日 志 
文件 报告 ,但 true 是 确保 成 功 地 完成 ， 

cd’ . ee 
ge $BUILDEND && . $BUILDEND, 11 \ 


test -f $BUILDEND && source $BUILDEND IANA 
true : 


build_one 函 数 的 最 后 两 行 是 关闭 远程 命令 列表 与 函数 体 , 重 定向 标准 输出 与 标准 错误 
输出 两 者 到 日 志文 件 。 最 重要 的 是 , 在 后 台 执 行 远程 命令 , 使 得 该 执行 可 以 马上 在 主体 
的 内 部 循环 中 继续 。 远 程 Shell 的 输入 被 重 定向 到 null 设备 ， 所 以 它 不 会 悬 在 那里 等 待 
用 户 输入 : 


sm < /dev/null > "$LOGDIR/$logfile" 2>&1 & 


这 样 大 小 的 程序 与 其 功能 ,必定 需要 在 线 帮助 。 由 于 篇 幅 的 关系 ,不 允许 我 们 在 此 展现 
build-all 的 手册 页 ， 不 过 此 脚本 与 它 的 手册 页 文件 都 在 本 书 网 站 上 。 


完整 的 脚本 具有 一 些 注释 ， 且 在 开始 处 以 字母 顺序 重新 排序 函数 ， 这 些 都 整理 在 例 8-2 
里 。 虽 然 这 有 320 行 之 多 (省 略 注释 与 空 行 的 情况 下 ) ， 但 花 时 间 了 解 我 们 写 程序 的 方 
式 , 其 实 是 很 受用 的 。 一旦 新 分 发 的 包 被 取 到 本 地 系统 上 时 ,一 个 单行 命令 便 能 以 并 行 
处 理 的 方式 , 在 所 有 构建 主机 上 启动 构建 与 验证 。 经 过 一 段 时 间 的 等 待 之 后 , 安装 程序 
会 检查 构建 日 志 以 得 知 它们 的 成 功 或 失败 ， 并 决定 在 哪些 主机 上 可 以 安全 地 执行 make 
站 





注意 : 构建 失败 不 能 归 因 于 本 地 的 错误 时 ， 则 应 报告 给 包 开 发 人 员 。 很 少 有 开发 人 员 会 广泛 使 用 
各 种 平台 ， 所 以 唯 有 来 自 安 装 者 的 反馈 ; -他 们 才能 作出 更 具 可 移植 性 且 健 全 的 包 。 在 执行 
之 前 ， 你 当然 应 该 先 看 看 包 的 发 行 注意 事项 (多 半 是 在 叫做 BUGS、FAQ、INSTALL、 
PROBLEMS 或 README 的 文件 内 )， 再 看 看 是 不 是 你 发 现 的 这 个 问题 已 经 有 人 提出 了 ， 只 是 
尚未 修正 。 在 这 样 的 软件 模式 下 ,开发 人 员 可 以 很 快 地 得 到 安装 者 的 反馈 ， 最 后 的 结果 就 
是 高 生产 力 ， 而 Eric Raymond 也 将 此 编写 成 书 ( 注 6)。 








注 6: 《The Cathedral and the Bazaar: Musings on Linux and Open Source by an Accidental 
Revolutionary》(O’Reilly). 
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例 8-2: build-all 程序 


#! /bin/sh - 

# 在 一 台 或 多 台 构 建 主 机 上 ， 并 行 构建 一 个 或 多 个 包 

# 

# 语法 : 

# build-all [ --? ] 

# [ Ll Res 

# [ ~“=check wm ] 

# [ --configure "..." ] : 

# [ --environment "..." ] 

# [ --help ] 

# [ --logdirectory dir ] 

# [ --on "[user@]host[:dir][,envfile] ..." ] 
共 [ --source "dir ..." ) 

# [ -~--userhosts "file(s)" ] 

# [ --version ] 

生 Package(s) 

于 

## 可 选用 的 初始 化 文件 : 

四 $HOME/ .build/directories list of source directories 
四 $HOME/ .build/userhosts list of [user@]host[:dir][,envfile] 
IFS=!' 


PATH=/usr/local/bin:;/bin:/usr/bin 
export PATH 


UMASK=002 
umask $UMASK 


build_one() 

' 
# 语法 : 
# build one [user@]host[:build-directory] [,envfile] 
arg=" “eval echo $1°" 


userhost="“echo $arg | sed -e 's/:.*$//'°" 


User=" echo $userhost | sed -e s'/@.*$//'*" 
test "$user" = "$userhost" && user=$USER 


host=" echo $userhost | sed -e s'/^[^@]*@//'" 


~ 


envfile="“echo S$arg | sed -e ‘'s/~[^,]*,//'*" 
test "$envfile" = "$arg" && envfile=/dev/null 


builddir="“echo $arg | sed -e Ss'/^.*://' -e 'S/,.*//'*" 
test "$builddir" = "$arg" && builddir=/tmp 


parbase=“basename $PARFILE 


# NB : 如 果 这 些 模式 被 更 换 过 ， 则 更 新 find_package() 
package=" "echo S$parbase | \ 
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sed -e 's/[.]jar$//' NA\ 
-e 's/[.]tar[l.]bz2$//' \ 
-e 's/[.]tar[.]lgz$//' N\ 
-e 's/[.]tar[.]2$//' \ 
-e 'Ss/[,]tar$//' NA\ 
-e 's/[.]tgz$//' \ 
-e !'S/[.]zip$//' " 


# 如 果 我 们 在 远程 主机 上 看 不 到 包 文件 ， 则 复制 过 去 
echo 5$SSH $SSHFLAGS Suserhost "test -上 S$PARFILE" 
if $SSH SSSHFLRAGS Suserhost "test -f $PARPFILE" 
then 

parbaselocal=$PARFILE 
else 

parbaselocal=$parbase 

echo $SCP S$PARFILE $userhost:s$builddir 

$SCP S$SPARFILE $userhost:s$builddir 
fi 


# 在 远程 主机 上 解 开 存档 文件 、 构 建 ， 
# 及 以 后 台 执 行 方式 检查 它 


sleep 1 # 为 了 保证 唯一 的 日 志文 件 名 
now="‘date SDRATEFLRAGS 、" 
logfile="Spackage.Shost .Snow.1og" 
nice $SSH $SSHFLAGS Suserhost " 
eG Taare 
test -f $BUILDBEGIN && . $BUILDBEGIN || 
test -f $BUILDBEGIN && source $BUILDBEGIN 11 \ 


true 3 

echo 'Package: $spackage' ; 
echo 'Archive: SPARFILE' ;} 
echo :Date: Snow: } 

echo 'Local user: $USER' }; 
echo :Local host: “hostname ， } 
echo 'Local log Qirectory : SLOGDIR' ; 
echo :Local log file: $logfile' ; 
echo ‘Remote user: $user' ;} 
echo 'Remote host: $host' ; 
echo 'Remote directory: $builddir’: : 


printf :Remote date: i 
Gate $DATEFLAGS ; 
printf ‘Remote uname: 


~ 


uname -a jl| true ; 

printf 'Remote gcc version: 3 

gcc --version | head -n 1 || echo ;- 

printf :Remote g++ version: es 

g++ ~-version | head -n 1 jl echo ; 

echo 'Configure environment: “S$STRIPCOMMENTS Senvfile | $JOINLINES.' ; 
echo 'Extra environment: SEXTRAENVIRONMENT’' ; 
echo :Configure directory: $CONFIGUREDIR: } 
echo ‘Configure flags: $CONFIGUREFLAGS' }; 
echo :Make all targets: SALLTARGETS'! ; 

echo 'Make check targets: S$SCHECKTARGETS: } 
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echo 'Disk free report for $builddir/$package:' ; 
df $builddir | SINDENT ; 

echo 'Environment:' ; 

env | env LC_ALL=C sort | SINDENT ; 





umask S$UMASK ; 
cd $builddir || exit 1 } 
/bin/rm -rf $builddir/$package ; 
SPAR S$parbaselocal : 
test "Sparbase" = "$parbaselocal" && /bin/rm -f S$parbase :; 
cd S$package/SCONFIGUREDIR || exit 1 } 
test ~-f configure && \ 
chmod a+X configure && \\ 
env ‘S$STRIPCOMMENTS Senvfile | $JOINLINES. \ 
SEXTRAENVIRONMENT \\ 
nice. time ./configure $CONFIGUREFLAGS ; 

nice time make $ALLTARGETS && nice time make $CHECKTARGETS ，; 


echo 'Disk free report for $builddir/$package:' ; 
df $builddir | $INDENT ; 


printf 'Remote date: '; 
date $DATEFLAGS } 
CQ ; 


test -f $BUILDEND && . $BUILDEND |] \ 
test -f $BUILDEND && Source $BUILDEND |] \ 
true ;} 


”< /dev/null > "$LOGDIR/$logfile" 2>&1 & 
} 


error () 
{ 
echo "$@" 1>&2 
usage_and exit 1 
} 


find_filel() 
{ 
# 语法 : 
# find_file file program-and-args 
# 如 果 找 到 ， 返 回 0 (成 功 )， 如 果 找 不 到 则 返回 1 (失败 ) 
if test -r "$1"* 
then 
PAR="$2" 
PARFILE="$1" 
return 0 
else 
return 1 
£i 
} 


find_package{() 


{ 
# 语 灶 : find_package package-x.y.z 
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base=“echo "$1" | 


PAR= 
PARFILE= 
for srcdir in $SRCDIRS 
do 
test "$srcdir" = "." && srcdir="‘pwd" 
for subdir in "$base" "" 
do 
# NB: 如 果 此 列表 有 改变 ， 则 更 新 build_one() 内 的 包 设 置 
find_file $srcdir/$subdir/$1.tar.gz, "tar xfz" 
find_file $srcdir/$subdir/$1.tar.Z "tar Es" 
find_ file $srcdir/$subdir/$1.tar hb od he 
find_ file $srcdir/$subdir/$1.tar;bz2 "tar xfj" 
find_file $srcdir/$subdir/$1 .tgz ; Env RED 
find_file $srcdir/$subdir/$1.zip “unzip -G" 
find_file $srcdir/$subdir/$1.jar "art" 
done 
done 
} 
set_userhosts () 
‘ 
# 语法 : set_userhosts filel(s) 
for u in "$@" 
do 
i£ test ~r “SU 
then 
ALTUSERHOSTS=" $ALTUSERHOSTS S$u" 
elif test -r "$BUILDHOME/S$u" 
then 
ALTUSERHOSTS="$ALTUSERHOSTS $BUILDHOME/S$u" 
else 
error "File not found: S$u" 
2 
done 
} 
usagel() 
{ 
cat <<EOF 
Usage: 


sed -e 's/[-.][.]*[0-9] .*$//"'™ 


$PROGRAM [ --? ] 


上 "Bi ss 1 

上 ==eheeke “wo 二 

[ --configure "..." ] 
[ --environment "..." ] 

[ --help ] 

[ --logdirectory dir ] 

[ --on "[user@]host[:dir] [,envfile] 
[ 
[ 
[ 


--Source "dir ..." ] 
--userhosts "file(s)" ] 
--version ] 

package (s) 
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return 
return 
return 
return 
return 
return 
return 
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EOF 
} 


usage_and_ exit () 
{ 

usage 

exit $1 
} 


version() 
{ 

echo "S$PROGRAM version SVERSION" 
} 


warning{} 
{ 

echo "S$@"* 1>&2 

EXITCODE=` expr SEXITCODE + 1 
} 


ALLTARGETS= 

altlogdir= 

altsrcdirs= 

ALTUSERHOSTS= 
BUILDBEGIN=./.build/begin 
BUILDEND=./.build/end 
BUILDHOME=SHOME/ .build 
CHECKTARGETS=check 
CONFIGUREDIR=. 

CONFIGUREFLAGS= 
DATEFLAGS="+%Y. Sm.$%d.%H,. SM.%S" 
EXITCODE=0 

EXTRAENVIRONMENT= 

INDENT="awk '‘{ print MN"\t\t\t\" \$0 }1* 
JOINLINES="tr :An '\040" 
LOGDIR= 

PROGRRAM= `basename $0 

SCP=scp 

SSH=ssh 

SSHFLAGS=S$ {SSHFLAGS--x} 
STRIPCOMMENTS='sed -e s/#.*$//' 
userhosts= 

VERSION=1 .0 


# 默认 的 初始 化 文件 
defaultdirectories=$BUILDHOME/directories 
defaultuserhosts=$BUILDHOME/userhosts 


# 要 寻找 包 分 发 的 位 置 列表 ， 

# 如 果 用 户 未 提供 个 人 化 列表 ， 则 使 用 默认 列表 : 

SRCDIRS=" $SSTRIPCOMMENTS Sdefaultdirectories 2> /dev/null‘* 
test -z "$SRCDIRS" && \\ . 


SRCDIRS=" 
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/usr/local/srce 
/usr/local/gnu/src 
S$HOME/src 
S$SHOME/gnu/src 

/tmp 

/usr/tmp 

/var/tmp 


while test S$# -gt 0 
do 
case $1 in 


--all | --al | --a | -all | -al | -a } 
shift 
ALLTARGETS="$1" 


1 


==Cd. | =6d ) 
shift 
CONFIGUREDIR="$1" 


了 


-~-Check | --chec | --che | --ch | -check | -chec | -che | -ch ) 
shift 
CHECKTARGETS="$1" 


了 


--configure | --configur | --configu | --config | --confi | \ 
--conf | --con | --co | \ | 
-configure | -configur | -configu | -config | -confi |} \ 
-conf | -con | -co ) 

shift 


CONFIGUREFLAGS="$1" 


?3 


--environment | --environmen | --environme | --environm | --environ | \ 
--enviro | -~-envir | --envi | --env | --en | --e i \ 
-environment | -environmen | -environme | -environm | -environ | \ 
-enviro | -envir | -envi | -env | -en | -e ) 

shift 


EXTRAENVIRONMENT="$1" 


了 


--help | --hel | --he | -~h | '--?' | -help | -hel | -he | -h | NS) 
usace_and_exit 0 


了 


--logdirectory | --~logdirector | -~logdirecto | --logdirect 1 \ 

--logdirec | --logdire | --logdir | --logdi | --logd | --log i \ 

--lo | --1 | \ | 

-logdirectory | -logdirector | -~logdirecto | -logdirect | \ 

-logdirec | -logdire | -logdir | -logdi | -logd | -log | -lo | -1 } 
shift 


altlogdir="$1" 


?3 
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--on | --o | -on | -o) 
shift 
userhosts="$userhosts $1° 


--source | --sourc | --sour | --sou | --so | --s | \ 
-source | -sourc | -sour | -sou | -so | -s ) 
shift 


altsrcdirs="$altsrcdirs $1" 


?77 


--userhosts | --userhost | --userhos | --userho | --userh | \ 
--user | --use | --us | --u | \ 
-userhosts | -userhost | -userhos | -userho | -userh | \ 
-user | -use | -us | -u ) 

shift 


set_userhosts $1 


了 


--Version bk --versio | --versi | --vers | --ver | --ve | --v | \ 
-version | -versio | -versi | -vers | -ver | -ve | -v ) 

version 

exit 0 


;3? 
-*) 

error "Unrecognized option: $1" 
ey 

break 


Pe 
站 


esac 4 
shift 
done 


# 寻找 适当 的 邮件 客户 端 程序 
for MAIL in /bin/mailx /usr/bin/mailx /usr/sbin/mailx /usr/ucb/mailx \ 
/bin/mail /usr/bin/mail 


do 
test -x $MAIL && break 
done 
test -x $MAIL || error "Cannot find mail client" 


# .命令 行 来 源 目 录 优 先 于 默认 值 
SRCDIRS="$altsrcdirs $SRCDIRS" 


Ef test -n "$userhosts" 
then 
test -n "$ALTUSERHOSTS" && 
userhosts="$userhosts ‘S$STRIPCOMMENTS $ALTUSERHOSTS 2> /dev/null‘" 
else 
test -Z "$ALTUSERHOSTS" && ALTUSERHOSTS="$defaultuserhosts" 
userhosts=" $STRIPCOMMENTS $ALTUSERHOSTS 2> /dev/null‘" 
二 
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# 检查 是 否 要 执行 某 些 操作 


test -2 "$userhosts" && usage_ and exit 1 


for p in "S$@’ 


do 
find package "S$p" 
if test -z "S$PARFILE" 
then 
“ warning "Cannot find package file S$p" 
continue 
fi 
LOGDIR="$altlogdir" 
if test -Z "5SLOGDIR -oO ! -qd "S$LOGDIR" -DO 1 -w "S$LOGDIR’ 
then 
for LOGDIR in *‘dirname S$PARFILE‘ /logs/$p" $BUILDHOME/logs/$p \ 
/usr/tmp /var/tmp /tmp 
do 
test -Q "S$LOGDIR" 11 mkdir -p *$LOGDIR" 2> /dev/null. 
test -Q "$LOGDIR" -a -Ww "S$LOGDIR" && break 
done 
fi 
msg="Check build logs for $p in ‘hostname. :$LOGDIR" 
echo "$msg" 
echo "$msg* | $MAIL ~s "$msg" $USER 2> /dev/null 
for u in $userhosts 
do 
build_one Su 
done 
done 


# 将 退出 状态 限制 为 一 般 UNIX 实际 的 做 法 l 
test $EXITCODE -gt 125 && EXITCODE=125 


exit SEXITCODE 


8.3 小结 


在 本 章 中 ， 我 们 写 了 UNIX 系统 里 现在 还 没有 的 两 个 好 用 工具 ， 使 用 Shell 语句 与 现 有 
的 标准 工具 完成 任务 。 不 管 是 它们 的 哪 一 个 , 执行 时 都 不 会 特别 耗 时 ， 所 以 用 户 应 该 不 
会 想 以 程序 语言 C 或 C++ 将 它们 重 写 。 以 Shell 脚本 来 说 ,它们 可 以 完全 不 做 任何 更 改 ， 
即 可 在 大 部 分 现代 UNIX 平台 上 执行 。 


这 两 个 程序 都 支持 命令 行 选项 , 这 些 选项 可 干净 地 被 while 与 case 语 句 处 理 。 两 者 都 
使 用 Shell 函数 以 简化 处 理 且 避 免 不 必 要 的 程序 代码 重复 。 最 后 ， 这 些 程序 也 在 安全 性 
议题 上 花 了 相当 的 心思 ， 并 对 它们 的 参数 与 变量 执行 了 健康 检查 。 
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awk 程序 语言 的 设计 , 就 是 为 了 简化 一 般 文本 处 理 的 工作 。 在 本 章 中 , 我 们 将 介绍 Shell 
脚本 里 有 关 awk 的 部 分 。 


关于 更 高 级 的 awk 语言 处 理 ， 你 可 以 阅读 引用 书目 里 的 图 书 。 如 果 你 的 系统 里 是 安装 
GNU 的 gawk， 也 可 以 在 在 线 info 系统 ( 注 1) 里 找到 它 的 使 用 手册 。 


所 有 UNIX 系统 里 都 至 少 有 一 套 awk。 该 语言 在 20 世纪 80 年代 中 期 大 举 扩张 版 图 ， 部 
分 厂商 仍 维持 旧 的 awk 实现 , 且 有 时 称 为 oawk, 之 后 新 产品 则 取 名 为 nawk。IBM AIX 
与 Sun Solaris 都 延续 这 样 的 实现 方式 ， 不 过 除 此 之 外 的 其 他 系统 当前 仅 提供 新 版 。 
Solaris 下 的 POSIX 兼 容 版 本 放 在 /usr/xpg4/bin/awk。 在 本 书 中 ,我们 仅 考 虑 已 扩展 
的 语言 并 称 之 为 awk 一 一 无 论 你 系统 里 必须 使 用 的 是 nawk、gawk 或 是 mawk。 


先 承 认 我 们 对 awk 有 强烈 偏见 : 因为 太 喜 欢 它 了 。 我 们 实现 它 、 维 护 它 、 移植 它 ， 并 用 
它 编写 程序 多 年 。 即便 短小 精 悍 的 awk 程 序 很 多 , 但 我 们 有 些 大 型 的 awk 程 序 是 上 千 行 
的 。awk 的 简单 与 强大 功能 , 使 其 看 来 就 像 是 为 了 某 个 工作 而 设计 的 工具 , 我们 在 awk 
上 很 少 遇 到 需要 某 种 文本 处 理工 作 却 找 不 到 可 用 的 功能 或 者 很 难 实现 的 情况 。 我 们 曾 斌 
着 以 C 或 C++ 重 写 一 个 awk 程序 结果 是 程序 更 长 -很 难 调 试 ; 而且 执行 的 速度 也 只 
不 过 稍 快 一 些 而 已 。 


不 同 于 其 他 脚本 语言 的 是 awk 拥有 多 个 实现 ， 这 种 健康 的 情况 鼓励 用 户 拥护 一 一 种 站 用 的 
语言 , 同时 也 允许 用 户 在 这 之 疝 自 由 地 切换 使 用 < 青 者 ， awk 是 POSIX 的 一 部 分 ， 
0 这 也 是 它 不 辣子 其 他 脚本 语言 之 处 。 





注 1: GNU 文件 查看 程序 ;info 是 texinfo: 包 的 一 如 分 可 从 ftp:[/ftp.gnuorg/gnu/textinfo/ 中 
获得 。emacs 文 字 编 辑 器 也 可 用 于 访问 该 文件 : 在 emacs 的 session 中 ， 按 Ctrl~ 卫 即 可 ;。 
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如 果 你 的 本 机 系统 上 的 awk 不 是 标准 版 本 ， 你 可 以 引用 表 9-1， 取 得 其 中 任 一 个 免费 的 
实现 。 这 些 程 序 全 都 具有 充分 的 可 移植 性 且 易 于 安装 。 gawk 可 作为 类 似 实验 台 的 功能 ， 
用 来 提供 好 玩 的 新 内 建 函 数 及 语言 功能 ， 包 括 网 络 I1O、 性 能 探测 、 国 际 化 以 及 可 移植 
性 检查 


表 9-1: 供 免 费 取 用 的 awk 版 本 


程序 位 置 

贝尔 实验 室 的 awk http://cm.bell-labs.com/who/bwk/awk.tar. gz 

gawk fip://fip.gnu.org/gnu/gawk/ 

mawk fip://ftip.whidbey.net/pub/brennan/mawk-1.3.3.tar.gz 
awka http://awka.sourceforge.net/ (awk 转 C 的 转换 程序 ) 


9.1 awk 命令 行 
awk 的 调用 可 以 定义 变量 、 提 供 程序 并 且 指定 输入 文件 : 


awk [ -F fs ] [ -Vv var=value ... ] 'program’' [ -- ] 下 
[ var=value ... ]】 [ file(s) ] 

awk [ -F fs ] [ -Vv var=value ... ] -f programfile [ -- ]\ 
[ var=value ... ] [ file(s) ] 


短程 序 通常 是 直接 在 命令 行 上 提供 ， 而 比较 长 的 程序 ， 则 委托 -f£ 选项 指定 。 遇 到 需 连 
接 被 指名 的 程序 文件 以 得 到 完整 的 程序 时 , 则 可 重复 使 用 此 选项 。 这 是 包含 共享 awk 代 
码 的 程序 库 之 方便 用 法 , 但 另 一 种 包含 程序 库 的 方式 是 使 用 igawk 程 序 , 它 是 gawk 分 
发 的 一 部 分 。 选 项 需 置 于 文件 名 以 及 一 般 Var=value 赋 值 的 前 面 。 


,， 如果 命 令 行 未 指定 文件 名 ， 则 awk 会 读 取 标 准 输入 。 


-- 是 特殊 选项 : 指出 awk 本 身 已 没有 更 进一步 的 命令 行 选项 。 任 何 接 下 来 的 选项 都 可 
被 你 的 程序 使 用 。 


-F 选 项 是 用 来 重新 定义 默认 字段 分 隔 字 符 , 且 一 般 惯例 将 它 作 为 第 一 个 命令 行 选项 。 紧 
接 在 -F 选 项 后 的 fs 参数 是 一 个 正则 表达 式 , 或 是 被 提供 作为 下 一 个 参数 。 字段 分 隔 字 
符 也 可 设置 使 用 内 建 变量 FS 所 指定 的 〈 见 本 章 稍 后 的 表 9-3): 


awk -F '\t' '{ ... }' files FS="[\f\v]" files 


以 上 面 的 例子 来 看 : -F 选项 设置 的 值 ， 应 用 到 第 一 个 文件 组 , 而 由 FS 指定 的 值 ， 则 应 
用 到 第 二 个 组 。 
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初始 化 的 -v 选项 必须 放 在 命令 行 上 直接 给 定 的 任何 程序 之 前 ， 它 们 会 在 程序 启动 之 前 
以 及 处 理 任何 文件 之 前 生效 。 在 一 命令 行程 序 之 后 的 -v 选 项 会 被 解释 为 一 个 文件 名 (可 
能 是 不 存在 的 )。 


在 命令 行 上 其 他 地 方 的 初始 化 会 在 处 理 参 数 时 完成 ， 并 且 会 带 上 文件 名 ， 例 如 : 


awk '{...}! Pass=l1 *.tex Pass=2 *.tex 
处 理 文 件 的 列表 两 次 ， 第 一 次 是 Pass 设 为 1， 第 二 次 将 它 设 为 2。 


使 用 字符 串 值 进行 初始 化 无 须 用 引号 框 起 来 ， 除 非 Shell 要 求 这 样 的 引用 ， 以 保护 特殊 
字符 或 空白 。 


特殊 文件 名 - (〈 连 字号 ) 表示 标准 输入 。 大 部 分 现代 的 awk 实现 (但 不 包括 POSIX) 都 
认定 特殊 名 称 /daev/stdin 为 标准 输入 ， 即 使 主机 操作 系统 不 支持 该 文件 名 。 同 样 ; 
/dev/stderr 与 /dev/stdout 可 用 于 awk 程 序 内 , 分别 表示 标准 错误 输出 与 标准 输出 。 


9.2 awk 程序 模型 


awk 把 输入 流 看 作 一 连 串 记录 的 集合 , 每 条 记录 都 可 进一步 细 分 为 字段 。 通常 ,一 行 一 


条 记录 , 而 字段 则 由 一 个 或 多 个 非 空白 字符 的 单词 组 成 。 然 而 , 是 什么 构成 一 条 记录 和 
一 个 字段 ， 完 全 是 由 程序 员 控 制 ， 且 它们 的 定义 ， 其 至 可 以 在 处 理 期 间 更 改 。 


一 个 awk 程序 是 一 对 以 模式 (pattern) 与 大 括号 框 起 来 的 操作 (action) 组 合 而 成 的 ， 
或 许 , 还 会 加 上 实现 操作 细节 的 函数 (function) 。 针 对 每 个 匹配 于 输入 数据 的 模式 ， 操 
作 会 被 执行 ， 且 所 有 模式 都 会 针对 每 条 输入 记录 而 检查 。 


模式 或 操作 可 省 略 其 中 一 个 。 如 果 模 式 省 略 ,， 则 操作 将 被 应 用 到 每 条 输入 记录 ; 如 果 操 
作 省 略 ， 则 软 认 操作 为 打印 匹配 之 记录 在 标准 输出 上 。 以 下 是 传统 awk 程序 的 配置 : 


Pattern { action } 如 模式 匹配 ， 则 执行 操作 
pattern " 如 模式 匹配 ， 则 打印 记录 
{ action } 针对 每 条 记录 ， 执 行 操作 


输入 会 自动 地 由 一 个 输入 文件 切换 到 下 一 个 , 且 awk 本 身 通 常会 处 理 每 个 输入 文件 的 打 
开 、 读 取 与 关闭 ， 以 允许 用 户 程序 专心 致力 于 记录 的 处 理 。 程 序 细节 将 在 稍 后 的 9.5 节 
中 详 述 。 


虽然 ， 模 式 多 半 是 数字 或 字符 串 表 达 式 ,不 过 awk 以 保留 字 BEGIN 与 END 提供 两 种 特 
殊 模 式 。 


与 BEGIN 关 联 的 操作 只 会 执行 一 次 , 在 任何 命令 行文 件 或 一 般 命令 行 赋值 被 处 理 之 前 ， 
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但 是 在 任何 开头 的 - eh ee 它 大 部 分 是 用 来 处 理 程序 人 
特殊 初始 化 工作 。 


END 操 作 也 是 只 执行 一 次 , 用 于 所 有 输入 数据 已 被 处 理 完 之 后 。 它 多 半 用 于 产生 摘要 报 
告 ， 或 是 执行 清除 操作 。 


BEGIN 与 END 模式 可 以 是 任意 顺序 ， 可 以 存在 于 awk 程序 内 的 任何 位 置 。 不 过 ， 为 了 
方便 ， 我 们 通常 将 BEGIN 模式 放 在 程序 的 第 一 个 位 置 ， 而 将 END 模式 放 在 最 后 。 


当 指定 多 个 BEGIN 或 END 模式 ， 则 它们 将 按照 在 awk 程序 里 的 顺序 ， 一 次 执行 。 这 交 
许 使 用 额外 的 -f 选项 纳入 库 代 码 ， 以 提供 起 始 与 清除 的 操作 。 


9.3 ”程序 元 素 

就 像 绝 大 多 数 的 脚本 语言 一 样 ，awk 处 理 数字 与 字符 串 数据 。awk 提供 了 标量 (scalar) 
与 数组 (array ) 两 种 变量 以 保存 数据 、 数字 与 字符 串 表达 式 , 还 提供 了 一 些 语句 类 型 以 
处 理 数据 : 赋值 注释、 条 件 、 函 数 、 输 入 、 循 环 及 输出 。awk 表达 式 与 语句 的 许多 功 
能 ， 都 与 C 程序 语言 里 的 相似 。 


9.3.1 ”注释 与 空白 
awk 里 的 注释 是 从 # 开始 到 该 行 结束 ， 就 像 在 Shell 里 那样 。 空 和 了 等 同 于 空 的 注释 。 
语言 里 的 任何 地 方 都 能 有 空白 , 也 人 允许 使 用 任何 长 度 的 空白 字符 , 所 以 适时 地 使 用 空 行 


与 缩 进 ， 可 以 增进 程序 的 可 读 性 。 不 过 , 单条 语句 通常 不 能 被 分 割 跨越 多 行 ， 除 非 在 行 
切断 的 地 方 立即 前 置 一 个 反 斜 杠 。 


9.3.2 ”字符 串 与 字符 串 表 达 式 

awk 里 的 字符 捉 常 数 是 以 引号 定 界 ， 例 如 : "This is a string constant"。 字 符 
字符 捉 可 包含 任何 8-bit 的 字符 ， 除 了 控制 字符 NUL (字符 值 为 0) 以 外 。 因 为 NUL 在 
底层 实现 语言 (C) 里 ， 扮 演 的 是 一 个 字符 串 中 断 字 符 的 角色 。GNU 的 gawk 则 无 此 限 
制 ， 所 以 gawk 可 以 安全 地 处 理 任 意 二 进 制 文件 。 


awk 字符 串 包 含 零 至 多 个 字符 , 且 在 字符 捉 的 长 度 上 没有 限制 ， 视 可 用 内 存 而 定 。 字 符 
串 表 达 式 赋值 给 变量 后 , 会 自动 建立 一 个 字符 串 , 且 变量 的 前 一 个 字符 串 值 所 占用 的 内 
存 也 会 自动 回收 。 


反 斜 杠 转 义 序列 允许 非 打 印字 符 的 表示 ,如 2.5.3 节 介绍 的 echo 命 令 一 样 。"RAA\t2" 包 
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含 的 是 : 字符 A、 制 表 字 符 (tab)， 以 及 字符 Z， 而 "\001" 与 "\x01" 则 每 个 只 是 包含 
了 Ctrl-A 字符 。 


echo 不 支持 十 六 进 制 的 转 义 序列 , 但 1989 年 的 ISO C 标 准 里 , 已 将 此 功能 纳入 awk 实 
现 中 。 不 同 于 至 多 只 用 三 个 数字 表示 的 八进制 转 义 序列 的 是 : 十 六 进 制 转 义 会 耗 用 所 有 
接 下 来 的 十 六 进 制 数字 。gawk 与 nawk 遵循 C 标 准 , 但 mawk 不 是 : 它 收集 至 多 两 个 十 
六 进 制 数字 ， 将 "\x404142" 减少 为 "e4142"， 而 非 成 为 8-bit 值 0x42 = 66， 其 表 
示 ASCII 字符 集 里 "B" 的 位 置 。POSIX awk 完全 不 支持 十 六 进 制 转 义 序列 。 


awk 提供 了 许多 方便 好 用 的 内 建 函 数 ， 可 在 字符 串 上 执行 ; 我 们 将 在 9.9 节 中 讨论 。 现 
在 ， 我 们 只 简略 介绍 字符 串 长 度 函 数 : length (string) 返回 string 内 的 字符 数 。 


字符 串 的 比较 ， 用 的 是 传统 的 关系 运算 符 : == (相等 ) .!= (不 等 )、< (小 于 )、<= (小 
于 等 于 ) 、> (大 于 )， 以 及 >= (大 于 等 于 ) 。 比 较 后 返回 1 为 真 ，0 为 假 。 比 较 不 同 长 度 
的 字符 串 ， 且 其 中 一 个 字符 串 为 另 一 个 的 初始 子 字符 串 时 , 较 短 的 会 定义 为 小 于 较 长 的 
那个 ， 因 此 ，"A"”< "AA" 值 为 真 。 


不 同 于 大 多 数 的 程序 语言 拥有 字符 串 数据 类 型 : awk 并 无 特殊 的 字符 串 接续 运算 符 。 也 
就 是 说 ,两 个 连续 字符 串 , 会 自动 地 连接 在 一 起 。 以 下 每 一 组 赋值 设置 标量 变量 s 为 相 
同 的 具有 四 个 字符 的 字符 串 : 

s = "ABCD" 
8- = BE “CD* 
村 BE "Ds 
S = "A" “Br nC nD 


则 七 的 值 为 "ABCDABCDABCD"。 


将 数字 转换 为 字符 串 ， 通 过 数字 连接 空 字符 串 即 可 : n = 123， 接 着 是 s ="" n, 把 
值 "123" 赋 给 s。 当 数字 无 法 确切 地 表示 时 ， 会 出 现 一 些 警告， 我 们 将 在 稍 后 的 9.9.8 
节 说 明 数 字 转 换 为 字符 串 的 细节 。 


awk 功能 强大 的 地 方 大 多 来 自 于 它 对 正则 表达 式 的 支持 。 有 两 个 运算 符 : ~ (匹配 ) 与 
!~ (不 匹配 ) 让 awk 更 容易 使 用 正则 表达 式 : "ABC" ~ "^[R-Z]+$" 结 果 为 真 ， 因 为 
左边 的 字符 串 里 只 有 大 写字 符 , 而 右边 表达 式 匹 配 任何 的 (ASCII) 大 写字 母 字符 串 。 你 
可 以 到 3.2.3 节 了 解 awk 对 扩展 正则 表达 式 (Extended Regular Expressions，ERE) 的 
支持 。 
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正则 表达 式 常量 可 以 用 引号 或 斜 杠 加 以 定 界 ，"ABC"” ~ /^[A-Z]+$/ 等 同 于 上 述 的 例 
子 。 要 使 用 哪 一 种 ,根据 程序 员 的 喜好 而 定 , 不 过 斜 杠 形式 是 较 常见 的 ,因为 它 可 以 用 
来 强调 括 起 来 的 就 是 正则 表达 式 , 而 非 任 意 的 字符 串 。 然 而 , 在 极 少 的 情况 下 , 使 用 斜 
杠 定 界 字符 会 与 除 号 运算 符 相 混淆 ， 这 时 使 用 引号 较 好 。 


如 果 在 引号 字符 串 里 正好 和 需要 有 字面 意义 的 引号 , 则 应 以 反 斜 杠 ("...\"...") 保 护 , 同 
理 , 字面 上 的 斜 杠 如 果 出 现在 以 斜 杠 定 界 的 正则 表达 式 里 , 也 应 这 么 做 (7/...\/.../)。 
如 果 需 要 在 正则 表达 式 里 使 用 反 斜 杠 时 , 则 它 也 应 被 保护 , 但 引号 形式 则 需要 额外 层级 
的 保护 ，"\"\\\TeX" 与 人 \\TeX/ 都 匹配 于 包含 \TeX 的 字符 串 的 正则 表达 式 。 


9.3.3 ”数字 与 数值 表达 式 z 

所 有 awk 里 的 数字 ,都 以 双 精 确 度 的 浮 点 值 表示 , 我 们 已 附 上 部 分 详细 数据 。 虽然 你 或 
许 并 不 想 成 为 浮 点 算术 专家 ,不 过 了 解 计 算 机 算术 的 限制 也 是 很 重要 的 ,因为 这 么 一 来 ， 
你 就 不 会 期 待 计算 机 无 法 做 到 的 运算 ， 也 可 以 避免 掉 和 一些 陷阱 。 


浮 点 数 可 以 包含 一 个 末端 以 字母 e (或 E) 所 表示 的 10 次 方 指数 以 及 可 选 地 带 正 负 号 的 
一 个 整数 。 举 例 来 说 ; 0.03125、3 .125e-2、3125e-5 与 0.003125E1， 同 样 都 是 表示 
1/32。 因 为 awk 里 所 有 算术 都 是 浮 点 算术 ， 所 以 表达 式 1/32 写成 这 种 方式 ,就 不 需要 
担心 像 使 用 整数 数据 类 型 的 程序 语言 中 所 碰 到 的 那样 计算 为 零 的 情况 。 


awk 并 没有 提供 字符 串 转 数字 的 函数 ， 不 过 awk 的 做 法 很 简单 ， 只 要 加 个 零 到 字符 串 
里 ， 例 如 : s = "123"， 接 着 是 n = 0 + s， 便 将 数字 123 赋值 给 n 了 。 


通过 把 这 样 的 字符 串 转 换 为 数字 : "+123ABC" 转换 为 123， 而 "ABC"、"ABC123", 与 
"*" 则 全 转换 成 0， 就 可 以 强制 非 数值 字符 串 转 换 为 数字 。 


浮 点 数 的 有 限 精 度 , 意 指 有 些 值 无 法 准确 地 表示 : 计算 的 次 序 很 重要 ( 浮 点 算术 没有 结 
合 性 )， 且 计算 的 结果 通常 也 只 是 尽 可 能 地 表示 为 最 接近 的 数字 。 


浮 点 数 的 有 限 范围 , 意 指 太 小 或 太 大 的 数字 都 无 法 表示 。 在 现代 系统 中 , 这 样 的 值 会 被 
转换 为 零 和 无 限 大 。 


即使 awk 里 所 有 的 数值 运算 都 在 浮 点 算术 内 完成 , 整数 值 还 是 可 以 确实 地 表示 , 只 要 值 
不 是 太 大 。 在 IEEE 754 算术 中 ，53 位 有 意义 的 位 数 ， 将 整数 至 多 限制 在 25 = 
9 007 199 254 740 992。 这 个 数值 ， 对 大 部 分 涉及 计数 功能 的 文本 处 理应 用 程序 来 说 已 
经 够 用 了 。 


awk 内 的 数值 运算 符 和 许多 其 他 程序 语言 里 的 相似 ， 我 们 将 它们 总 结 在 表 9-2 中 。 
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浮 点 算术 更 多 内 容 
事实 上 ， 现 今 所 有 平台 已 一 致 遵循 1985 年 的 《IEEE 754 Standard for Binary 
Floating-Point Arithmetic》。 该 标准 定义 了 32 位 单 精度 格式 、64 位 双 精 度 格式 ,以 
及 可 选用 的 扩展 精度 格式 ,通常 可 实现 在 80 或 128 位 内 。awk 实现 使 用 了 64 位 格 
式 (对 应 于 C 的 double 数据 类 型 ), 尽管 awk 致力 于 可 移植 性 地 使 用 ,但 awk 语 
言 规格 仍 故 恋 地 对 细节 部 分 保持 模糊 。POSIX 的 awk 声称， 只 有 算术 会 遵循 ISO 
C Standard， 它 不 需要 任何 特定 的 浮 点 架构 。 


IEEE 754 64 位 双 精 度 的 值 拥有 一 个 正 负 号 位 、 一 个 11 位 偏 移 指数 ， 以 及 一 个 53 
位 的 显 着 位 (不 存储 开头 位 )。 这 可 表示 至 多 16 位 的 十 进 制 数字 。 最 大 的 有 限 大 小 
约 为 10*3%， 及 最 小 的 正规 化 非 替 值 大 小 约 为 103%。 大 部 分 IEEE 754 实现 也 支持 
正常 值 以 下 的 数值 ， 可 向 下 扩展 范围 到 10-2%，, 但 会 漏 失 精度 : 这 种 逐渐 下 溢 
(gradual underflow) 到 替 的 现象 ， 拥 有 一 些 好 用 的 数值 型 特质 ， 不 过 与 非 数 值 型 
软件 无 关 。 


由 于 正 负 号 位 是 显 式 地 指定 ,所 以 IEEE 754 算术 对 正 零 与 负 零 部 支持 。 许 多 程序 
语言 在 这 方面 都 有 所 误解 ，awk 也 不 例外 : 部 分 awk 实现 在 打印 负 替 时 不 会 带 上 
负 号 。 


IEEE 754 算术 也 包括 两 个 特殊 值 : Infinity (无 限 大 ) 与 NaN (not-a-number; 非 
数字 ) 。 这 两 种 部 可 以 赋予 正 负 号 ,不 过 NaN 的 正 负 号 没有 意义 。 它 们 主要 是 要 让 
高 性 能 计算 机 里 的 运算 不 要 中 断 ， 而 仍 能 继续 记录 异常 情况 (exceptional 
condition) 的 发 生 。 当 值 太 大 而 无 法 表示 时 ， 它 会 说 溢出 (overflow) ， 并 让 结果 
为 Infinity。 当 值 未 正确 地 定义 , 例如 Infinity - Infinity, 或 0/0, 则 结果 为 一 NaN。 


Infinity 与 NaN 的 计算 : Infinity + Infinity 与 Infinity # Infinity 都 产生 Infinity; 
而 NaN 结合 任何 值 ， 部 产生 NaN。 


相同 正 负 号 的 Infinity 在 比较 时 是 相等 的 ; NaN 比 较 时 则 不 等 于 它 自己 : 如 果 X 为 
NaN， 则 (x != x) 的 测试 值 为 真 。 


awk 在 IEEE 754 算术 变 成 广汽 可 用 之 前 即 已 开发 ， 因 此 该 语言 无 法 完整 地 支持 
Infinity 与 NaN。 特别 需要 说 明 的 是 : 现行 awk 实现 会 捕 提 试图 除 以 零 的 陷阱 ， 即 
便 该 运算 在 IEEE 754 演算 里 的 定义 是 极为 完备 的 。 
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表 9-2: awk 的 数值 运算 符 (优先 级 由 大 到 小 排列 ) 


运算 符 


增加 与 减少 (前 置 或 后 置 ) 
指数 〈 右 结合 性 ) 


1 渤 非 、 一 元 (unary) 加 号 、 一 元 减 号 
入 六 水 乘 、 除 、 余 数 

和 加 、 减 

< <= == <= != > >= 比较 

&& 逻辑 AND (简写 ) 

图 逻辑 OR (简写 ) 

人 三 元 条 件 式 


赋值 ( 右 结 合 性 ) 


awk 和 大 部 分 程序 语言 一 样 ,可 使 用 括号 以 控制 计算 顺序 。 能 记得 运算 符 确切 顺序 的 人 
其 实 不 多 ， 特 别 是 那些 使 用 好 几 种 语言 的 人 : 当 有 存疑 时 ， 就 用 括号 吧 ! 


增加 与 减少 运算 符 的 工作 (如 Shell 里 的 一 样 ) 详 见 6.1.3 节 。 分 开 来 看 : n++ 与 ++n 是 
一 样 的 , 但 由 于 它们 在 更 新 变量 值 及 返回 值 时 , 会 有 副作用 (side effect)， 所 以 当 它 们 
在 同一 个 语句 里 使 用 一 次 以 上 时 ,可 能 会 出 现 难 以 判断 的 计算 顺序 , 例如 : 表达 式 n++ 
+ ++nn 由 实现 期 定义 。 虽然 有 这 种 模棱两可 的 问题 , 但 是 增加 /减少 运算 符 仍 广泛 地 使 
用 在 提供 这 一 功能 的 程序 语言 中 。 


取 短 运算 是 由 左边 的 运算 数 (operand) 乘客 右 运算 数 的 次 方 。 因此, n^3 与 n**3 都 指 
n 的 立方 。 这 两 个 运算 符 名 称 是 同 义 的 ， 只 是 它们 是 来 自 不 同 的 前 身 语言 。 惯用 C 的 程 
序 员 可 能 发 现 : awk 的 ^ 运 算 符 不 同 于 在 C 里 的 , 不 过 awk 中 大 部 分 运算 符 的 使 用 仍 类 
似 于 C。 


取 赛 与 赋值 awk 里 仅 有 的 右 结 合 性 的 运算 符 , 因此 :a^b^c^d 意 即 a^(b^(c^d)); 然 
而 a/b/c/d 表 示 的 是 : ( (a/b) /c) /qd。 这 些 结合 性 规则 , 在 许多 程序 语言 中 都 很 常见 
同时 也 是 数学 的 惯例 。 


在 最 初 的 awk 规范 下 , 余数 运算 里 如 果 有 任 一 运算 数 为 负 , 则 余数 运算 符 的 结果 是 由 实 
现 期 定义 。POSIX awk 要 求 其 行为 要 像 ISO.Standard C 函数 fmod ( ) 那样 。 也 就 是 当 
x 名 y 可 表示 时 ， 则 会 要 求 这 个 表达 式 x 带 有 正 负 号 ， 且 必须 小 于 y。 我 们 测试 过 的 
所 有 awk 实现 ， 都 遵循 这 一 POSIX 的 要 求 。 


逻辑 运算 符 && 与 11 与 在 Shell 里 的 一 样 , 为 AND 与 OR 的 简写 : 它们 只 在 需要 的 时 候 
才 计 算 它们 右边 的 运算 数 。 
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表 9-2 中 倒数 第 二 行为 简写 的 三 元 条 件 运 算 符 。 如果 第 一 个 运算 数 非 零 (为 真 ), 则 结果 
为 第 二 个 运算 数 ; 否则 ， 则 为 第 三 个 运算 数 。 第 二 与 第 三 个 运算 数 只 有 一 个 被 计算 。 因 
此 ,在 awk 里， 你 可 以 写 一 个 简洁 的 赋值 ; a = (u > w) ? x^3 : y^7， 这 种 写法 ， 
在 其 他 程序 语言 中 ， 可 能 如 下 所 示 ， 
if {u > WwW) then 
a = X^3 
else 
a= Y^7 
endif 
赋值 运算 符 可 能 会 不 正常 ， 原 因 有 二 。 第 一 : 复合 式 , 像 /= 这样， 以 左边 运算 数 作为 
右边 的 第 一 个 运算 数 : n /= 3 便 是 n = n / 3 的 简写 。 第 二 : 赋值 的 结果 用 来 作为 另 
一 个 表达 式 的 部 分 表达 式 : a = b = c = 123 先 赋值 123 给 c (因为 赋值 运算 符 为 右 结 
合 性 ) ， 然 后 再 将 c 的 值 给 b， 最 后 把 b 的 值 给 a。 结 果 如 预期 ，a、b 与 c 都 接收 到 值 
123。 相 同 地 , x = (y = 123) + (z = 321) 分 别 将 x、y 与 z 指定 为 444、123 与 321。 


** 与 **= 运 算 符 非 POSIX awk 的 一 部 分 , mawx 也 不 认可 。 你 应 该 避免 在 新 的 程序 里 
再 使 用 它 ， 请 以 ^ 与 ^= 取代 之 。 





注意 ; 请 确定 你 了 解 赋值 用 的 = 与 相等 测试 用 的 == 是 不 同 的 。 因 为 赋值 是 有 效 的 表达 式 ， 所 以 
(r = s) ?上 : u 表 达 式 在 句子 结构 上 是 正确 的 ， 但 可 能 会 出 现 不 是 你 想 要 的 结果 。 它 
指 赋值 S 给 r+, 然后 如 果 其 值 非 零 ， 则 返回 t, 否则 ， 则 返回 u。 这 里 的 警告 ,也 适用 在 C、 
C++、Java 及 其 他 同时 支持 = 与 == 运算 符 的 语言 。 








内 建国 数 int ( ) 返回 其 参数 的 整数 值 部 分 ， 例 ， int (-3.14159) 计算 值 为 -3。 


awk 提供 了 一 些 通用 的 基本 数学 函数 , 可 能 和 你 用 过 的 计算 程序 或 其 他 程序 语言 里 使 用 
的 类 似 ， 例 如 sqrt () 、sin()、cos()、1log()、exp1() 等 等 。 详 见 9.10 节 。 


9.3.4 ”标量 变量 

保存 单一 值 的 变量 叫做 标量 变量 。awx 就 像 绝 大 多 数 的 脚本 语言 一 样 变量 无 须 先行 声 
明 。 相 反 地 ， 它 们 会 在 程序 里 第 一 次 使 用 它 的 时 候 ， 自 动 被 建立 , 这 通常 是 通过 指定 其 
值 达 成 , 这 个 值 可 以 是 数字 或 是 字符 串 。 当 使 用 变量 时 , 在 内 容 中 期 待 的 是 数字 还 是 字 
符 串 就 很 清楚 了 , 且 其 值 也 会 在 需要 时 自动 地 由 其 中 一 种 (数字 或 字符 串 ) 转换 为 另 一 


所 有 的 awk 变量 在 建立 时 其 初始 值 为 一 个 空 字符 串 值 , 但 是 当 需 要 数值 时 ， 它 会 被 视 为 
零 。 ee | 本 
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awk 的 变量 名 称 必须 以 ACSII 字 母 或 下 划 线 开始 , 然后 选择 性 地 接 上 字母 、 下 划 线 及 数 
字 。 因此, 变量 名 称 要 匹配 正则 表达 式 [A-Za-z_] [A-Za-z_0-9]*。 除 此 之 外 ,变量 名 
称 在 实际 上 并 没有 长 度 的 限制 。 


另外 ,awk 的 变量 名 称 是 与 大 小 写 有 关 的 : f00、Foo 与 FOO 是 完全 不 同 的 三 个 名 称 。 一 
般 使 用 上 以 及 建议 用 法 是 : 养 成 习惯 ,将 局 部 变量 全 设 为 小 写 、 人 
大 写 ， 而 内 建 变量 则 全 是 大 写 。 


awk 提供 许多 内 建 变 量 ,都 是 大 写 名 称 。 我 们 在 简易 程序 里 时 常 需要 用 到 的 几 个 ,， 列 于 
表 9-3 中 。 


表 9-3， awk 里 一 人 


妆 基 说明- ; ee 

FILENAME 当前 输入 文件 的 名 称 

FNR 当前 输入 文件 的 记录 数 

FS 字段 分 隔 字符 (正则 表达 式 ) (默认 为 "”“") 

NF 当前 记录 的 字段 数 

NR 在 工作 (job) 中 的 记录 数 

OFS 输出 字段 分 隔 字符 默认 为 :" “) 

ORS 输出 记录 分 隔 字符 (默认 为 :" \n") 

RS 输入 记录 分 隔 字符 ( 仅 用 于 gawk 与 mawk 里 的 正则 表达 式 ) (默认 为 :"\n") 





9.3.5 ”数组 变量 

awk 里 的 数组 变量 遵循 与 标量 变量 里 相同 的 命名 惯例 ， 只 不 过 它 包含 零 到 多 个 数据 项 ， 
通过 紧 接着 名 称 的 数组 索引 选 定 。 

大 部 分 程序 语言 都 需要 以 整数 表达 式 作为 索引 的 数组 , 但 awk 允许 在 数组 名 称 之 后 ,以 


方 括号 将 任意 数字 或 字符 串 表达 式 括 起 来 作为 索引 。 如 果 你 先前 未 看 过 这 样 的 数组 , 可 
能 会 觉得 难以 理解 , 下 面 的 awk 代码 以 办 公 室 名 录 程 序 来 解释 ,让 你 更 容易 了 解 其 功用 : 


telephone ["Alice"] = "555-0134" 
telephone["Bob"] “955=0135* 
telephone["Carol"] = "555-0136" 
telephone{"Don"] = "55$-0141" 


以 任意 值 为 索引 的 数组 , 称 之 为 关联 数组 ， 因为 它们 的 名 称 与 值 是 相关 联 的 ， 就 像 人 类 
所 做 的 一 样 。 重 要 的 是 ，awk 将 其 应 用 于 数组 中 ， 人 允许 查找 (find)、 插 入 (insert) 以 
及 删除 (remove) 等 操作 ， 在 一 定 的 时 间 内 完成 ， 与 存储 多 少 项 目 无 关 。 
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awk 里 的 数组 无 须 声 明 也 无 须 配 置 : 数组 的 存储 空间 在 引用 新 元 素 时 会 自动 增长 。 数组 
存储 空间 是 稀 朴 的 (sparse) : 只 有 那些 确实 被 引用 到 的 元 素 才 会 配置 。 即 你 可 以 在 
x[1] = 3.14159 后 面 接 x[10000000] = "ten million*， 而 不 必 填 满 元 素 2 到 
9999999。 绝 大 多 数 的 程序 语言 在 使 用 数组 时 ， 要 求 所 有 元 素 是 相同 类 型 ， 不 过 awk 数 
组 并 无 此 限制 。 


当 元 素 不 再 需要 时 ， 其 存储 空间 可 回收 再 利用 。delete arraylkindexj] 会 从 数组 中 删 
除 元 素 , 而 近期 的 awk 实现 则 允许 以 delete array 删除 所 有 的 元 素 。 我们 将 在 稍 后 
9.9.6 节 中 说 明 另 一 种 删除 数组 元 素 的 方式 。 


一 个 变量 不 能 同时 用 作 标 量变 量 和 数组 变量 。 当 你 应 用 aelete 语句 删除 数组 的 元 素 
(element) 的 时 候 ， 不 会 删除 它 的 名 称 。 因 此 ， 像 这 样 的 代码 
x[1) = 123 


delete x 
x = 789 


会 引发 awk 发 出 提示 ， 告 诉 你 不 可 以 给 数组 名 称 赋值 。 


有 时, 需要 使 用 多 个 索引 找 出 表格 数据 中 的 唯一 值 , 例如 邮局 使 用 的 门牌 号 码 、 街 名 及 
邮政 编码 ， 以 识别 邮件 递送 位 置 。 成 对 的 列 / 栏 可 以 识别 二 维 网 格 内 的 位 置 ， 例 如 象棋 
盘 。 参考 书目 通常 会 记录 作者 、 书 名 、 编辑 、 出 版 社 和 出 版 年 份 , 以 识别 一 本 特定 书籍 。 
鞋 店 店员 需要 知道 制造 商 、 型 号 、 颜色 及 大 小 , 才能 从 仓库 中 为 顾客 找到 他 想 要 的 鞋子 。 


awk 通 过 将 “以 逗 点 分 隔 的 索引 列表 ”看 作 一 个 字符 串 , 而 使 用 多 个 索引 模拟 数组 。 然 
而 , 由 于 逗 点 本 身 也 可 能 出 现在 索引 值 内 , 因此 awk 使 用 存储 在 内 建 变量 SUBSEP 里 的 
无 法 打印 字符 串 取 代 索 引 分 隔 字 符 ( 喜 点 ) 。POSIX 宣称 它 的 值 是 由 实现 期 定义 ， 一 般 
来 说 , 其 默认 值 为 "\034" (ASCII 字 有 段 分隔 控制 字符 , FS), 但 你 如 果 需 要 在 索引 值 里 
使 用 该 字符 串 ， 则 你 可 以 更 改 它 。 因 此 ， 当 你 写 maildrop[53，"Oak Lane"，"T4Q 
7XV"] ，awk 会 将 索引 列表 转换 为 字符 串 表 达 式 "53" SUBSEP "Oak Lane" SUBSEP 
"T4Q 7xV", 且 使 用 它 的 字符 串 值 作为 索引 。 这 样 的 结构 是 可 以 被 推翻 的 , 不 过 我 们 不 
建议 你 这 样 做 ， 下 面 这 些 语句 都 显示 相同 的 项 目 : 

print maildrop[53, "Oak Lane", "T4Q 7XV"] 

print maildrop["53" SUBSEP "Oak Lane" SUBSEP "T4Q 7XV"] 


print maildrop["53\0340ak Lane", "T4Q 7XV"] 
print maildrop["53\0340ak Lane\034T4Q 7XV"] 


很 明显 ， 如 果 你 稍 后 改变 了 SUBSEP 的 值 ， 将 会 使 得 已 经 存储 数据 的 索引 失效 ， 所 以 ， 
SUBSEP 其 实 应 该 在 每 个 程序 里 只 设置 一 次 ， 在 BEGIN 操作 里 。 


一 旦 适当 地 重新 调整 思路 , 利用 关联 数组 , 可 以 解决 许多 数据 处 理 的 问题 。 针 对 像 awk 
这 样 的 简单 程序 语言 来 说 ， 它 们 已 经 展现 了 自己 是 一 个 优秀 的 设计 选择 。 
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9.3.6 ”命令 行 参数 - 
awk 对 于 命令 行 的 自动 化 处 理 ， 意 味 着 awk 程序 几乎 不 需要 关心 它们 自己 。 这 点 与 C、 


C++、Java 以 及 Shell 的 处 理 全 然 不 同 , 使 用 后 面 这 些 程序 的 设计 师 , 习惯 于 明白 确切 地 
处 理 命令 行 参数 。 


awk 通过 内 建 变 量 ARGC (参数 计数 ) 与 ARGV (参数 向 量 , 或 参数 值 )， 让 命令 行 参数 
可 用 。 下 面 简短 的 程序 说 明 其 用 法 : 


$ cat showargs .awk 
BEGIN { 
。 Print "ARGC =", ARGC 
for (k = 0; k < ARGC; k++) 
print "ARGVI" k "] = [" RARGV[Ik]j "]" 
} 


再 来 看 看 将 它 用 在 一 般 awk 命令 行 上 ， 会 产生 什么 样 的 结果 : 


$ awk -V One=1 -vv Two=2 -上 Showarg8s .awk Three=3 filel Four=4 file2 file3 


RARGC = 6 

ARGVI0] = [awk] 
ARGVI[1] = [Three=3] 
ARGV[2] = [filel] 
ARGV[3] = {Four=4] 
ARGV[4] = [file2] 
ARGV[5] = [file3] 


正如 在 C 与 C++ 中 : 参数 存储 在 数组 项 目 0、1、…、ARGC - 1 中 , 且 第 0 个 项 目 是 awk 
程序 本 身 的 名 称 。 不 过 ， 与 -上 与 -v 选 项 结合 性 的 参数 是 不 可 使 用 的 。 同 样 的 ,任何 合 
令 行 程序 也 不 可 使 用 ， | 


$ awk :BEGIN { for (k = 0; k < ARGC; k++) 


> print "ARGV[I"* Kk "] = [" ARGV[K] "]" :abe 
RARGVI0] = fawk] 
ARGVI1] = [al] . 

ARGV[2] = [bl] 1 
ARGV[3] = [cj 


是 否 需要 显示 在 程序 名 称 里 的 目录 路 径 ， 则 看 实际 情况 而 定 : 


$ /usr/local/bin/gawk ‘BEGIN { print ARGV[0] ] 
gawk 


$ /usr/local/bin/mawk ‘BEGIN { print ARGV[0] }' 
mawk 


$ /usr/local/bin/nawk ‘BEGIN { print ARGV[0] }' 
/usr/local/bin/nawk 
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awk 程序 可 修改 ARGC 与 ARGV, 尽管 极 少 需 要 这 么 做 。 如 果 ARGYV 的 元 素 被 (重新 ) 设 
置 为 空 字符 串 或 被 删除 ， 则 awk 会 忽略 它 , 不 会 将 它 视 为 文件 名 。 如 果 你 消除 ARGYV 的 
结尾 几 个 项 目 ， 请 确定 相应 地 减少 ARGC 。 


awk 一 见 到 参数 含有 程序 内 容 或 是 特殊 -- 选 项 时 ， 它 会 立即 停止 将 参数 解释 为 选项 。 任 
何 接 下 来 看 起 来 像 是 选项 的 参数 ， 都 必须 由 你 的 程序 处 理 ， 并 接着 从 ARGV 中 被 删除 ， 
或 设置 为 空 字符 串 。 


时 常 我 们 会 在 Shell 脚本 中 包 训 awk 引用 。 为 保持 脚本 的 可 读 性 ， 可 将 一 段 元 长 的 程序 
存储 在 Shell 变量 里 。 你 也 可 以 将 脚本 一 般 化 : 通过 具有 nawx 默 认 值 的 环境 变量 ， 以 允 
许 在 执行 时 可 选择 awk 实现 : 

#! /bin/sh - 

AWK=$ {AWK: -nawk} 


AWKPROG=" 
- 这 里 是 长 的 程序 ..: . 


SAWK "$AWKPROG" "$@" 


单 引 号 可 保护 程序 内 容 不 被 Shell 解释 ,不 过 当 程序 本 身 包含 单 引 号 时 ， 你 得 更 小 心 处 
理 。 另 一 种 在 Shell 变量 里 存储 程序 的 好 用 替代 方式 是 : 将 它 放 进 共享 程序 库 目 录 内 个 
别 的 文件 内 ， 这 个 程序 库 目 录 可 在 相对 于 存储 此 脚本 的 目录 中 找到 

#! /bin/sh - “ 


AWK=$ {AWK : -nawk} 
SAWK -f ‘dirname $0°/../share/lip/myprog.awk -- "S$@" 


dirname 命 令 已 在 8.2 节 里 作 过 说 明 。 举 例 来 说 ,如 果 脚 本 在 /usr/local/bin 下 , 那 


么 程序 就 在 /usr/1local/share/1ib 下 ， 这 里 的 airname 是 用 来 确保 只 要 两 个 文件 的 
相对 位 置 被 保留 ， 则 脚本 将 可 运行 。 


9.3.7 环境 浇 变量 
awk 提供 访问 内 建 数组 ENVIRON 中 所 有 的 环境 变量 ， 


$ awk :BEGIN { print ENVIRON["HOME"]; print ENVIRON ["USER"] }! 
/home/jones jl. 
jones 


ENVIRON 数组 并 无 特别 之 处 : 你 可 以 依 需 要 来 加 入 、 删 除 及 修改 项 目 。 然 而 ，POSIX 
要 求 子 进程 继承 awk 启动 时 生效 的 环境 , 而 我 们 也 发 现 , 在 现行 实现 下 , 并 无 法 将 对 于 
ENVIRON 数组 的 变更 传送 给 子 进程 ， 或 者 是 给 内 建 函 数 。 特 别 地 ， 这 是 指 你 无 法 通过 
对 于 ENVIRON["LC_ALL"] 的 更 改 控制 字符 串 国 数 ， 例 如 tolower () ,在 特定 locale 下 
的 行为 模式 。 因 此 ， 你 应 将 ENVIRON 看 成 是 一 个 只 读数 组 。 
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如 果 你 需要 控制 子 进程 的 locale, 则 可 通过 在 命令 行 字符 串 里 设置 适合 的 环境 变量 达成 。 
例如 ， 以 Spanish (西班牙 语 ) 的 locale 排序 文件 ， 像 这 样 : 


system("env LC_ALL=es_ES sort infile > outfile") 


system() 函数 将 在 稍 后 9.7.8 节 中 说 明 。 


9.4 ”记录 与 字段 
在 awk 程序 化 模式 中 , 通过 输入 文件 隐 含 循环 的 每 一 次 迭代 , 会 处 理 单一 记录 (record)， 
通常 是 一 行文 本 。 记 录 可 进一步 再 分 割 为 更 小 的 字符 串 ， 叫 做 字段 (field)。 


9.4.1 ”记录 分 隔 字符 


尽管 记录 通常 是 被 换行 字符 所 分 隔 的 数 行文 本 , 但 awk 人 允许 更 具 通 用 性 地 通过 记录 分 隔 
字符 内 建 变量 RS 。 


在 传统 的 与 POSIX 的 awk 里 ，RS 必须 是 单一 字面 字符 ,例如 换行 符号 (默认 值 ), 或 是 
空 字符 串 。 后 者 会 被 特殊 处 理 : 记录 是 由 一 个 或 多 个 空 行 所 分 隔 的 段落 ,， 且 位 于 文件 起 
始 或 结尾 处 的 空 行 会 被 忽略 。 字 段 则 再 由 换行 字符 ， 或 FS 里 所 设置 的 任何 字符 加 以 分 
隔 。 


gawk 与 mawk 提 供 了 一 个 重要 的 扩展 功能 : Rs 可 以 是 正则 表达 式 , 也 就 是 提供 比 单一 字 
符 还 长 的 长 度 。 因 此 ，RS = “+" 匹配 于 字面 上 的 一 个 加 号 ,然而 RS = “:+" 匹配 于 
一 个 或 多 个 冒号 。 这 提供 了 更 强大 的 记录 规格 , 我们 在 9.6 节 中 ,将 此 应 用 到 部 分 范例 。 


使 用 正则 表达 式 记 录 分 隔 字 符 时 , 匹配 分 隔 字符 的 文本 不 再 是 由 RS 值 来 决定 。gawk 以 
内 建 变量 RT 中 的 语言 扩展 来 提供 此 功能 ，mawk 则 不 支持 。 


如 果 没 有 RS 的 正则 表达 式 扩展 ， 当 它们 遇 到 要 匹配 跨行 的 情况 时 ， 要 将 正则 表达 式 模 
拟 成 记录 分 隔 字符 是 很 难 的 , 因为 绝 大 多 数 的 UNIX 文 本 处 理工 具 是 一 次 处 理 一 行 。 有 
时 , 你 可 以 使 用 tr 将 换行 符号 转换 为 其 他 未 用 到 的 字符 , 让 流 串 成 极 长 的 一 行 。 然 而 ， 
这 时 常会 遇 到 其 他 工具 程序 里 缓冲 区 大 小 限制 的 冲突 。gawk、mawk 和 emacs 是 少数 几 
个 没有 面向 行 的 数据 浏览 限制 的 程序 。 


9.4.2 ”字段 分 隔 字 符 


字段 彼此 是 被 匹配 字段 分 隔 字 符 正则 表达 式 (可 在 变量 FS 里 取得 ) 的 当前 字符 串 值 分 
隔 。 
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FS 的 默认 值 为 单一 空格 (space), 它 接受 特殊 的 解释 方式 : 一 个 或 多 个 空白 字符 (空格 
与 制 表 字符 ) 以 及 行 的 开头 与 结尾 的 空白 , 都 将 被 忽略 。 因 此 ， 当 输入 行为 ; 


alpha beta gamma 
alpha beta gamma 


这 两 行 对 于 使 用 FS 默认 值 的 awk 程序 来 说 是 一 样 的 : 具有 值 "alpha"、"beta" 与 
"gamma" 的 三 个 字段 。 当 数据 是 由 人 为 输入 时 ， 这 个 功能 特别 方便 。 


当 使 用 单一 空格 分 隔 字段 的 少 有 情况 时 ， 只 要 设置 FS = "[ ]" 以 正好 匹配 一 个 空格 
即 可 。 在 这 样 的 设置 下 , 前 置 与 结尾 的 空白 不 会 再 被 忽略 。 而 下 面 这 两 个 例子 也 会 报告 
不 同 的 字段 数 (输入 记录 的 开头 与 最 结尾 各 有 两 个 空格 ) : 


$ echo ， un deux trois :| awk -F: ， '{ print NF ":" $0 ] 
3: un deux trois : : 


$ echo ' un deux EO ' | awk -P'I[ ]' '{ print NF ":" $0 }' 
7: un deux trois 
第 二 个 例子 看 到 了 七 个 字段: ""、""、"un"、"deux"、"trois"、"" 以 及 "" 
FS 只 有 在 它 超过 一 个 字符 时 ， 才 会 被 视 为 正则 表达 式 。FS = "." 指 的 是 以 . 作为 字 


段 分 隔 字 符 ; 而 不 是 正则 表达 式 所 指 的 任何 单一 字符 。 


现代 的 awk 实现 也 允许 Fs 为 一 个 空 字符 串 ， 每 一 字符 均 为 一 个 分 开 的 字段 。 但 是 旧式 
的 实现 , 则 解读 成 每 条 记录 只 有 一 个 字段 。POSIX 宣称 ,这 种 行为 仅 在 未 标明 空 字段 分 
隔 字 符 时 有 效 。 


9.4.3 ”字段 


字段 可 以 特殊 名 称 $1、$2、$3、…、S$NF 供 awk 程序 使 用 。 字 段 引 用 无 须 是 固定 的 ， 有 
必要 的 话 ， 它 们 还 可 以 转换 (通过 截断 ) 为 整数 值 : 假定 k 为 3， 则 值 $k、$ (1+2)、 
$(27/9)、$3.14159、$"3.14159"， 以 及 $3， 都 引用 到 第 三 个 字段 。 


特殊 字段 名 称 $0 引用 到 当前 记录 ， 初 始 值 是 从 输入 流 中 读 取 ， 且 记录 分 隔 字 符 不 是 记 
录 的 一 部 分 。 引 用 到 0 到 NF 范围 以 上 的 字段 编号 是 不 会 有 错 : 它们 会 返回 空 字符 捉 , 且 
不 会 建立 新 字段 ， 除 非 你 指定 值 给 它们 。 如 引用 到 分 数 或 非 数 字 , 则 字段 编号 是 在 实现 
期 定义 的 。 引用 负 值 字段 编号 则 会 发 生 极 严重 的 错误 , 在 我 们 测试 过 的 所 有 实现 下 都 是 
这 样 。 POSIX 宣称 引用 到 任何 非 负数 以 外 的 字段 编号 都 是 未 指定 的 。 


字段 就 如 同一 般 变量 ， 也 可 赋值 ， 例 如 $1 = "alef" 是 合法 的 ， 但 会 有 一 个 较 大 的 副 
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作用 : 如 果 连 续 引 用 完整 的 记录 , 则 它 从 字段 的 当前 值 中 重新 组 合 在 一 起 , 但 是 由 输出 
字段 分 隔 符 的 内 建 变量 OFS 给 定 字 符 串 的 分 隔 ， 默 认为 单一 空格 。 


9.5 ”模式 与 操作 


模式 与 操作 构成 awk 程 序 的 核心 。 awk 的 非 传统 数据 驱动 程序 模式 ， 使 得 它 更 吸引 用 户 
使 用 ， 也 成 就 了 许多 awk 程序 的 简洁 形式 。 


9.5.1 模式 


模式 由 字符 串 与 /或 数值 表达 式 构建 而 成 : 一 旦 它们 计算 出 当前 输入 记录 的 值 为 非 零 
( 真 ), 则 实行 结合 性 的 操作 。 如 果 模 式 是 正则 表达 式 , 则 意 指 此 表达 式 会 被 拿 来 与 整个 
输入 记录 进行 匹配 ， 就 好 像 你 已 经 写 $0 ~ /Tegexp/ 而 非 只 是 /regexp/。 下 面 例子 
是 选 定 模式 时 ， 常 用 到 的 几 种 形式 : 


NF == , , “ 选 定 空 记录 

NF > 3 选 定 拥有 三 个 字段 以 上 的 记录 

NR < 5 | 选 定 第 1 到 第 4 条 记录 

(FNR == 3) && (FILENAME ~ /f.][chjsy/) 于 C 来 源 文件 中 选 定 记 录 3 

$1 ~ /jones/ `， ”，”” 选 定 字段 1 里 有 “jones" 的 记录 

/ [Xx] {Mm] [L1]/ 选 定 含有 "XML" 的 记录 ， 并 忽略 大 小 写 差异 
$0 ~ /IXx] {Mm] [L1]/ 同上 


awk 在 匹配 功能 上 ， 还 可 以 使 用 范围 表达 式 (range expression) 。 以 去 点 隔 开 的 两 个 表 
达 式 ， 会 从 匹配 于 左边 表达 式 处 〈 含 ) 开始 取样 ， 直 到 匹配 右边 的 表达 式 。 如 果 两 个 范 
围 表 达 式 匹配 后 匹配 于 一 条 记录 ， 则 选 定 该 单一 记录 。 这 种 行为 不 同 于 sed，sed 仅 在 
连续 起 始 范围 记录 之 后 的 那些 记录 里 ， 查 找 范围 的 结尾 模式 。 这 里 有 几 个 例子 ， 


(FNR == 3), (FNR == 10) 选 定 每 个 输入 文件 里 的 记录 3. 到 10 

/<[Hh] [Tt] [Mn] [L1]>/，/<\/ [Hh] [Tt] [Mn] [L1]>/ ” 选 定 HTML 文件 里 的 主体 

/Taeiouy] [aeiouy]/，/[^aeiouy] [^aeiouy]/  . “ 选 定 起 始 于 两 个 元 音 、 结 尾 为 两 个 . 
， ， 辅音 的 记录 


在 BEGIN 操作 里 ，FILENAME、FNR、NF 与 束 初 始 都 未定 义 ， 引用 到 它们 时 ， 会 返回 
noll 字符 串 或 零 。 


人 则 awk 会 在 完成 最 后 一 个 操作 之 后 退出 ， 而 不 
需 读 取 任何 文件 。 


进入 第 一 个 END 操作 时 ，FILENAME 是 最 后 一 个 要 处 理 的 输入 文件 ， 而 FNR、NF 和 NR 
则 会 保留 它们 从 最 后 一 条 输入 记录 而 来 的 值 。 在 END 操 作 里 的 $0 值 是 不 可 靠 的 : gawk 
与 mawk 会 保留 它 ， 但 nawk 不 会 ， 而 POSIX 则 是 静默 。 
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9.5.2 操作 


到 目前 为 止 , 我 们 已 提 及 了 在 选 定 记录 时 要 用 到 的 大 部 分 awk 语言 元 素 。 而 操作 段落 则 
是 可 选 地 接 在 一 个 模式 之 后 ， 也 就 是 操作 所 在 之 处 : 它 标明 了 如 何 处 理 该 记录 。 


awk 提供 许多 语句 类 型 ， 可 允许 使 用 任意 程序 的 构建 。 不 过 ， 我 们 要 到 后 面 的 9.7 节 才 
会 详细 说 明 这 部 分 ， 在 这 里 ， 除 了 指定 语句 之 外 ， 我 们 只 考虑 简单 的 print 语句 。 


以 最 简单 的 形式 来 说 , 纯 print 意 指 在 标准 输出 上 ,打印 当前 的 输入 记录 ($0), 接着 
是 输出 记录 分 隔 字 符 ORS 的 值 , 默认 为 单一 换行 字符 。 因 此 ,下面 这 些 程序 所 做 的 全 是 
相同 的 操作 : 


1 : 模式 为 真 ， 默 认 操 作为 打印 ， 

NR>0 { print } 有 记录 时 打印 ( 恒 为 真 ) 

1 { print } 模式 为 真 ， 则 打印 ， 这 是 默认 值 
{ print } 无 模式 则 视 为 真 ， 明 确 的 打印 ， 这 是 默认 值 
{ print $0 } 相同 ， 但 打印 明确 的 值 


含有 上 述 任 何 一 行 的 单行 awk 程序 ， 只 会 将 输入 流 复制 到 标准 输出 。 


更 常见 的 用 法 是 : 一 个 print 语 句 里 包含 了 以 去 点 隔 开 的 零 或 多 个 表达 式 。 每 个 表达 式 
会 被 计算 , 有 必要 时 会 转换 为 一 个 字符 串 , 且 以 输出 字段 分 隔 字 符 OFS 的 值 将 输出 分 隔 
后 传送 到 标准 输出 。 接 在 最 后 项 目 之 后 的 是 输出 记录 分 隔 字 符 ORS 的 值 。 


print 的 参数 列表 及 类 似 功能 的 printf 与 sprintf, 参见 9.9.8 节 ,都 可 选 地 放置 到 加 
括号 内 。 Te es na 
也 可 用 于 IO 重 定向 ， 详 见 9.7.6 节 与 9.7.7 节 。 


下 面 的 例子 已 经 是 完整 的 awk 程序 。 在 每 一 个 中 ， 我 们 都 只 显示 前 三 个 输入 字段 , 并 通 
过 省 略 选 定 模式 , 选 定 所 有 的 记录 。awk 程序 语句 以 分 号 分 隔 , 而 且 我 们 会 使 用 些 略 微 
不 同 的 操作 代码 ， 以 修改 输出 字段 分 隔 字 符 : 


$ echo 'one two three four' | awk '{ print $1, $2, $3 }' 
one two three 


$ echo 'one two three four' | awk '{ OFS = "...";} print $1, $2, $3 }! 
one...two...three 


$ echo 'one two three four' | awk '{f OFS = "\n"; print $1, $2, $3 }' 
one 


two 
three 


改变 输出 字段 分 隔 字符 而 没有 指定 任何 字段 ， 不 会 改变 $0: 


$ echo 'one two three four' | awk '{ OFS = "\n"; print $0 时 
one two three four 
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不 过 ,如 果 我 们 更 改 输出 字段 分 隔 字符 , 并 指定 至 少 一 个 字段 (即使 我 们 未 变更 其 值 )， 
强制 以 新 的 字段 分 隔 字符 重新 组 合 记录 ， 则 结果 为 : 

$ echo 'one two three four' | awk '{ OFS = "\n"; $1 .= $1; print $0 }: 

one 

two 


three 
four 


9.6 ”在 awk 里 的 单行 程序 

我 们 到 此 已 介绍 了 在 awk 中 使 用 单行 程序 所 完成 的 很 多 任务 , 很 少 有 其 他 程序 语言 可 以 
做 到 这 样 。 在 本 节 ， 我 们 会 再 介绍 一 些 这 类 单行 程序 的 例子 , 不 过 由 于 篇 幅 的 限制 ， 我 
们 有 时 不 得 不 将 它 切 为 数 行 。 在 这 些 例子 里 , 我 们 会 展示 以 awk 或 其 他 UNIX 工 具 程 序 
解决 问题 的 多 种 方式 : 


。 ”我们 从 简单 的 awk 实现 开始 一 一 UNIX 单词 计数 程序 wc: 
awk '‘{ C += lengtht{ s0) + 1; W += NF ) END { print NR, W, C }! 
注意 : 模式 /操作 组 并 不 需要 以 换行 字符 分 隔 ， 不 过 我 们 通常 会 为 了 阅读 上 的 方便 
而 这 么 做 。 虽 然 我 们 可 以 包括 采用 BEGIN { C = W = 0 } 形 式 的 初始 化 块 ， 不 
过 ，awk 具 有 默认 的 初始 化 保证 ， 因 而 这 部 分 是 不 怎么 需要 的 。 上 述 程序 中 , C 的 
字符 计数 在 每 条 记录 处 被 更 新 , 计算 记录 的 长 度 , 并 加 上 换行 字符 (默认 的 记录 分 
隔 字符 ) 。 在 w 内 的 单词 计数 会 累积 字段 的 数目 。 我 们 不 需要 保留 一 个 行 计数 变量 ， 
因为 内 建 记录 计数 NR 会 自 动 为 我 们 追踪 该 信 息 。END 操作 则 处 理 wc 所 产生 的 单 
行 报告 打印 。 


。 ”如 果 程 序 为 空 ， 则 awk 不 会 读 取 任 何 的 输入 并 立即 退出 ， 所 以 我 们 可 以 匹配 cat 
(作为 一 个 有 效率 的 数据 横 ): 


$ time cat *.xml > /dev/null 


0.035u 0.121s 0:00.21 71.4% 0+0K 0+0io 99pf+0w 
$ time awk ! 7 *.ml 
0.136u 0.051s 0:00.21 85.7% 0O+0k 0+0io 140pf+0Ow 


。 ，” 投 开 NUL 字 符 问题 , awk 其 实 可 以 轻松 取代 cat, 下 面 这 两 个 例子 会 产生 相同 输出 : 


cat * .Xml 
awk 1 * .Xml 


。 ”要 将 原始 数据 值 及 它们 的 对 数 打印 为 单 栏 的 数据 文件 ， 可 使 用 


awk '{ print $1, log{($1) }: filels) 


。 ”要 从 文本 文件 里 ,打印 5 多 行 左右 的 随机 样本 ， 可 使 用 虚拟 随机 产生 函数 〈 见 9.10 
节 )， 这 会 产生 平均 分 布 于 0 与 1 之 闻 的 值 ， 


www.TopSage.com 


awK 的 惊人 表现 255 





awk ’'rand{) < 0.05' fi7zefs) 


。 ”在 以 空白 分 隔 字 段 的 表格 中 ， 报 告 第 nn 栏 的 和 : 


awk -V COLUMN=n :{ sum += SCOLUMN } END { print sum }' filel(s) 


。 ”微调 上 述 报告 ， 产 生字 段 的 平均 值 . 


awk -V COLUMN=n '{ Sum += SCOLUMN } END { print sum / NR }' file(s)} 


。 ”针对 花费 文件 (其 记录 包含 描述 与 金额 于 最 后 一 个 字段 )， 打印 花费 总 数 。 可 使 用 
内 建 变量 NF 计算 总 值 : 
awk '{ sum += S$NF; print $0, sum }' file(s) 

。 ”这 里 是 三 种 查找 文件 内 文本 的 方式 : 


egrep ‘patternlpattern' filef{s) 
awk '/patternlpattern/' fi7Iefs) 
awk '‘/patternlpattern/ { print FILENAME no" FNR ":" $0 }' file(s) 


。 ”如 果 你 要 限制 仅 查 找 100 一 150 行 , 可 以 通过 两 个 工具 程序 , 再 搭配 管道 , 不 过 这 
么 做 会 漏 掉 位 置信 息 : 


sed -n -e 100,150p -s file(s) | egrep ‘'pattern' 


使 用 GNU sed 要 搭配 -s 选项 ， 才 能 为 每 个 文件 重新 开始 行 编号 。 另 外 ， 你 也 可 
以 通过 awx， 使 用 比较 花哨 的 模式 来 做 : 


awk ' (100 <= FNR) && {FNR <= 150) && /pattern/ \ 
{ print FILENAME ":" FNR *:" $0 }' filefs) 


。 ”要 在 一 个 四 栏 表格 里 , 调换 第 二 与 第 三 栏 ， 假设 它们 是 以 制 表 字符 分 隔 , 那么 可 以 
使 用 下 面 三 种 方式 的 其 中 一 种 ; 


awk -F'\t’ -V OFS=’'\t’ '{ print $1, $3, $2, $4 }' old > new 
awk 'BEGIN { FS = OFS = ?Nt } { print $1, $3, $2, $4 }!' old > new 
awk -F'\t’ '{ print $1 "Nt $3 "Nt $2 "Nt $4 }' old > new 
。 ”要 将 各 栏 分 隔 字 符 由 制 表 字 符 (在 此 以 :显示 ) 转换 成 &, 可 在 以 下 两 种 方式 择 一 : 
sed -~e 's/*/\&/g' file(s) , 
awk 'BEGIN { FS = At OFS = "&" } { $1 = $1; print }: filel(s) 
。 ”下面 这 两 个 管道 ， 都 为 删除 已 排序 流 里 的 重复 行 : 
sort file(s) | unia 
sort file(s) | awk ‘Last != $0 { print } { Last = $0 }! 


。 ”将 回 车 字符 /换行 字符 的 行 终结 , 一 致 转换 为 以 换行 字符 作为 行 终结 ， 可 在 下 列 方 
式 中 选择 一 种 : 
sed -e 's/\r$//' filel(s) 


sed -e 's/^MS$//' filels) 
mawk 'BEGIN { RS = "\r\n" } { print }’' filel(s) 


第 一 个 sed 需 要 一 个 现代 的 版 本 ， 它 会 认得 转 义 序列 。 在 第 二 个 例子 里 ，^M 表 示 
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注 2: 


第 多 章 


的 是 字面 上 的 Ctrl-M ( 回 车 )。 第 三 个 例子 , 我 们 需要 gawk 或 是 mawk, 因为 nawk 
与 POSIX awk 都 不 支持 在 RS 里 拥有 超过 单一 字符 以 上 的 设置 方式 。 


要 将 单 空格 的 文本 行 ， 转 换 为 双 空 格 的 行 ， 可 在 下 列 方式 选择 一 种 : 


sed -e 's/$/\n/' filel(s) 

awk 'BEGIN { ORS = "\n\n" } { print }' filel(s) 
awk 'BEGIN { ORS = "\n\n" } 1' file(s) 

awk '{ print $0 "\n" }' file(s). 

awk '{ print; print "" }' filefs) 


正如 之 前 一 样 ， 我 们 需要 现代 的 sed 版 本 。 请 留意 ,在 第 一 个 awk 例子 里 ,我 们 
如 何以 简单 变更 输出 记录 分 隔 字符 ORS 解 决 此 问题 :程序 的 剩余 部 分 只 要 将 每 条 记 
录 显 示 出 来 即 可 。 其 余 的 两 个 awk 解决 方案 则 需要 对 每 条 记录 作 更 多 的 处 理 , 且 通 
常 在 执行 上 会 比 第 一 个 慢 些 


将 双 空 格 行 转换 为 单 空格 一 样 是 很 容易 的 : 

gawk 'BEGIN { RS="\n *\n" } { print }， File(s) 

在 Fortran 77 的 程序 里 ， 寻 找 超过 限制 长 度 72 个 字符 的 行 ( 注 2)， 可 使 用 下 列 方 
式 之 一 : 


egrep >n '^.{73,}' *.f 
awk 'length($0) > 72 { print FILENAME ":" FNR ":" $0 '}' *.f 


我 们 需要 与 POSIX 兼容 的 egrep， 执 行 扩 展 正则 表达 式 ， 以 匹配 73 或 73 个 以 上 
的 任何 字符 。 

为 了 从 文件 中 取出 国际 标准 书号 (ISBN) 里 具有 连 字号 的 值 , 我 们 需要 一 个 长 的 ， 
但 直觉 易 懂 的 正则 表达 式 , 辅 以 记录 分 隔 字符 集 , 以 匹配 所 有 不 属于 ISBN 的 字符 : 


gawk 'BEGIN { RS = "[^-0-9xXx]" } 
/[0-9] [-0-9] [-0-9] [-0-9] [-0-9] [-0-9] [-0-9] [-0-9] [-0-9] [-0-9] [-0-9]- [0-9Xx]/' \ 
filel(s) 


在 POSIX 兼容 的 awk 下, 长 的 正则 表达 式 可 以 缩短 成 /[0-9] [-0-9] {10}-[-0- 
9Xx] /。 经 我 们 测试 后 发 现 , 只 有 gawk --posix. HP/Compaq/DEC OSF/1 awk、 
Hewlett-Packard HP-UX awk、IBM AIX awk 及 Sun Solaris /usr/xpg4/bin/ 
awk 在 正则 表达 式 中 支持 POSIX 扩展 的 括号 区 间 表达 式 。 


要 截 去 HTML 文本 里 以 角 括号 框 起 的 标记 标签 (markup tag) ， 可 以 将 标签 视 为 记 
录 的 分 隔 字 符 ， 像 这 样 : 


mawk 'BEGIN { ORS = " *; RS = "<[^<>]*>" } { print }' *.html 
Fortran 行 长 度 限 制 在 旧式 的 打 孔 卡 上 不 会 有 问题 ,但 当 它 出 现在 现今 以 屏幕 为 主要 编辑 


媒介 上 时 就 麻烦 了 , 它 会 令 编 辑 器 静默 地 和 忽略 超过 72 个 字段 宽度 的 语句 内 容 , 而 演变 成 
相当 棘手 的 bug。 
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通过 将 ORS 设置 为 一 空格 ， 会 使 得 HTML 标记 被 转换 为 一 空格 ， 且 所 有 输入 行 的 
断 行 都 会 被 保留 下 来 。 


。 “下面 的 例子 是 说 明 : 如 何 将 一 组 XML 文 件 (就 像 本 书 一 样 ) 里 所 有 的 标题 (title) 
取出 , 然后 打 显示 来 , 一 个 标题 一 行 , 并 以 标记 包围 它 。 即 便 是 标题 横 跨 数 行 ,此 
程序 都 能 正常 运行 , 除 此 之 外 还 i = 格 , 这 种 情 
况 虽 不 常见 ， 但 是 合法 的 : 
$ mawk -v ORS=' ' -v RS='[ \n]’' '/<title *>/, /<\/title *>/' *.yml |] 
> sed -e ‘'s@</title *> *@g\n@g' 


<title>Enough awk to Be Dangerous</title> 
<title>Freely available awk versions</title> 
<title>The awk Cormmand Line</title> 


awk 程 序 所 产生 的 是 单行 输出 ， 所 以 现代 版 本 的 sea 过 滤 程 序 提供 必需 的 断 和 。 在 
这 里 可 以 省 去 sed 处 理 ， 要 这 么 做 的 话 ， 则 必须 用 到 下 一 段 要 讨论 的 awk 语句 。 


9.7 ”语句 


程序 语言 必须 支持 连续 性 的 、 条 件 式 的 及 重复 的 执行 。awk 大 量 地 借用 C 程 序 语言 的 语 
旬 以 提供 这 些 功能 。 除 此 之 外 ， 本 节 还 会 提 到 awk 专 有 的 不 同 语句 类 型 。 


9.7.1 ”连续 执行 
连续 的 执行 是 以 一 个 语句 一 行 或 以 分 号 隔 开 的 方式 ， 提供 一 过 中 语句 列表 。 下 面 这 三 行 ， 
2 3 


HABC" 
Sn 


号 


也 可 以 这 样 写 : 
n= 123; s = "ABC* :七 =sn 


在 单行 程序 里 , 我 们 通常 会 使 用 分 号 形式 , 但 awk 程 序 也 支持 由 文件 提供 的 方式 , 我 们 
会 将 各 个 语句 分 别 放 在 它 自己 的 行 上 ， 反 而 很 少 用 到 分 号 。 


虽然 程序 预期 的 是 单一 语句 ， 不 过 我 们 还 是 能 使 用 复合 语句 (compound statement) 的 
方式 ， 以 大 括号 将 语句 组 起 来 。 因 此 ， 和 awk 模式 相关 联 的 操作 正 是 复合 语句 。 


9.7.2 “条件 式 执行 
awk 以 if 语句 提供 条 件 式 的 执行 
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种 
‘© 
二 





if {expression) 
statement1 


if (expression) 
statement1 

else 
statement2 


如 果 expression 非 零 ( 为 真 )， 则 执行 statement1。 否 则 ， 如 果 有 else 则 执行 
statement2。 这 里 的 每 个 语句 本 身 也 可 以 是 if 语 句 , 所 以 多 分 支 条 件 语 句 的 一 般 写法 
通常 是 这 样 : 


if (expressionl) 
statement1 

else if (expression2) 
statement2 

else if {expression3)} 
statement3 


else if {expressionk) 
statementk 

else 
Statementk+1 


最 后 一 个 else 是 选择 性 的 ， 它 一 定 与 前 一 个 最 接近 的 if (在 相同 层级 上 ) 相关 联 。 
在 多 分 支 的 if 语句 里 ， 是 依次 测试 条 件 表达 式 ， 如 果 第 一 个 就 匹配 ， 则 选 定 相 关联 的 


语句 执行 ， 之后， 控制 权 继续 执行 接 在 完整 if 语句 后 面 的 语句 ,无须 计算 语句 剩余 部 
分 的 条 件 式 表达 式 。 如 果 无 表达 式 匹 配 ， 则 执行 最 后 的 else 分 支 。 


9.7.3 ”重复 执行 
awk 提供 了 4 种 重复 执行 语句 (循环 ): 


。 ”循环 在 起 始 处 使 用 结束 测试 ; 


while {expression) 
statement 


。 ”循环 在 结尾 处 使 用 结束 测试 : 


do 
statement 
while {expression) 


。 ”循环 执行 可 计数 的 次 数 : 


for (expri; expr2; expr3) 
statement 


。 ”循环 处 理 关联 数组 里 的 元 素 : 
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for (key i array) 
statement 
while 循环 可 满足 重复 许多 次 的 需求 ， 典 型 的 情况 就 是 : 当 有 数据 时 ， 就 处 理 它 。do 
循环 则 较 少 用 到 : 例如 ， 它 通常 出 现在 优化 问题 的 地 方 ， 用 来 减少 “错误 计算 的 计算 ， 
且 当 错误 太 大 时 可 以 不 断 地 重复 测试 "。 这 两 个 循环 都 是 在 表达 式 为 非 零 ( 真 ) 的 情况 
下 进行 。 如 果 表 达 式 初始 值 为 零 ， 则 while 的 循环 体 完全 不 会 执行 ; 然而 do 循环 体 则 
执行 一 次 。 


for 循环 的 第 一 种 形式 包含 三 个 以 冒号 分 隔 的 表达 式 ， 其 中 任 一 个 或 是 全 部 都 可 为 空 。 
第 一 个 表达 式 于 循环 开始 之 前 被 计算 。 第 二 个 则 于 每 次 重复 的 起 始 时 被 计算 , 且 当 它 是 
非 零 (为 真 ) 时 ， 循 环 会 继续 下 去 。 和 传统 循 
环 是 从 1 到 n， 写 法 就 像 这 样 : 


for (k = 1; k <= ni k++) 
statement 


然而 ， 索 引 不 一 定 需要 一 次 重复 就 加 一 。 循 环 也 可 以 倒 着 执行 ， 像 这 样 : 


for (k = n; k >= 1; Kk--) 
statement 


注意 : 因为 浮 点 算术 通常 不 精确 , 所 以 请 避免 在 for 语 句 表达 式 里 , 计算 非 整 数 的 值 。 例 如 这 类 
循环 : 


$ awk 'BEGIN { for (x = 0; x <= 1; x += 0.05) print x }' 


在 最 后 的 重复 中 不 会 显示 1， 因为 增加 的 部 分 为 不 精确 的 表示 值 0.05， 因 此 最 后 所 产生 的 
x 值 会 比 1.0 大 一 些 。 


C 程 序 员 应 该 会 发 现 ，awk 人 缺乏 逗 点 运算 符 , 所 以 这 三 种 for 循环 表达 式 都 无 法 以 逗 点 
作为 表达 式 列表 的 分 隔 。 


for 循环 的 第 二 种 形式 , 用 来 反复 处 理 数组 里 的 元 素 , 可 用 在 元 素数 量 未 知 或 未 形成 可 
运算 的 整数 序列 时 。 元 素 可 以 任意 顺序 被 选 定 ， 所 以 输出 如 下 : 


for (name in telephone) 
print name "\t" telephone [name] 


这 不 太 可 能 出 现 你 所 想 要 的 顺序 。 我们 会 在 9.7.7 节 里 介绍 如 何 解 决 这 类 问题 。 split () 
函数 在 9.9.6 节 里 会 介绍 如 何 处 理 多 索引 的 数组 。 
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正如 Shell 里 的 模式 ， Preak 语句 可 用 于 提早 退出 最 内 部 的 循环 : 


for (name in telephone) 
if {telephone[name] ==: "555-0136") 
- break ; % 
print name, "has telephone number 555-0136" 


不 过 ，Shell 风格 的 多 层次 break 语句 在 这 里 并 不 支持 。 


超 


continue 语 句 就 像 在 Shell 那样 ,会 跳 到 循环 体 的 结尾 , 准备 执行 下 一 个 重复 。awk 不 
接受 Shell 的 多 层 continue za 语句。 为 了 说 明 continue 语 句 , 我 们 在 例 9-1 所 展示 的 
程序 中 ,通过 强制 测试 除数 ， 以 找 出 一 数字 是 否 为 复数 (composite) 还 是 质数 (记得 
吗 ? 质数 指 的 就 是 无 法 被 1 及 其 本 身 以 外 的 任何 数 整除 的 数 ), 然后 显示 它 可 找到 的 任何 


因数 分 解 。 


例 9-1: 整数 的 因数 分 解 
# 计算 整数 的 因数 分 解 ， 一 行列 出 一 个 
# 语法 ; 
# awk -f factorize.awk 
{ 
n= int{$1) 
m= n= (n i 
factors = "" 
for (kKk = 2; (m > 1) && (k^2 <= n}); ) 
{ i 
if {int{m % k) != 0) 
{ 
k++ 
continue 
} 
m/=k 


factors = {factors == "*") ? ("" k} : {factors " * "» k) 


} 
if ((1 <m) && (tm < n)) 
factors = factors ” * " m 
print n, {factors == "") ? "is prime" : ("= " factors) 


} 


请 留意 ， 循 环 变量 x 是 增加 的 ， 而 continue 语 句 只 有 在 我 们 找到 k 不 是 m 的 除数 时 ， 


才 会 执行 ， 所 以 for 语句 中 的 第 三 个 表达 式 为 空 。 
如 果 我 们 使 用 适 当 的 测试 数据 执行 它 E， 会 得 到 以 下 结果 : 


$ awk -f factorize.awk teet 。 at 
2147483540 =2*2*5 * 107374177 
2147483541 3 * 7 * 102261121 

2147483542 = 2 * 3137 * 342283 
2147483543. is prime 

2147483544 =2*2*2*3*79 * 1132639 
2147483545 = 5 * 429496709 
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2147483546 2* 13 * 8969 * 9209 

2147483547 3*3* 11 * 21691753 

2147483548 = 2 *2* 7 * 76695841 

2147483549 is prime 

2147483550 = 2*3* 5 5 9 2 181 “LT81 


9.7.4 ”数组 成 员 的 测试 | 

成 员 测 试 key in array 是 一 个 表达 式 : 如 果 key 为 array 的 一 个 索引 元 素 ， 则 计算 
为 1 ( 真 )。 此 外 ,也 可 通过 否定 运算 符 反 转 测试 : 如 果 key 不 是 array 的 一 个 索引 元 
素 ， 则 !1 (key in array) 为 1 一 一 此 处 圆 括 号 是 必需 的 。 


对 于 具有 多 下 标 (subscript) 的 数组 ， 在 和 测试 时 ,请 使 用 圆 括 号， 并 以 去 点 分 隔 下 标 列 


表 : (i, j,... ，n) in array。 


成 员 测 试 不 可 外 Re 然而 引用 元 素 时 ， 如 果 元 素 不 存在 ， 便 会 建立 它 。 因此 
你 应 该 这 么 写 : 


if ("Sally" in telephone) 
print *Sally is in the directory" 


而 非 : 


if (telephone["Sally"] != "") 
print *Sally is in the directory" 


因为 第 二 种 形式 会 在 她 (Sally) 不 存在 时 ,将 其 加 入 到 目录 里 ,并 拥有 一 个 空 电 话 号 
码 。 


重点 是 : 你 必须 能 够 区 分 寻找 索引 (index) 与 寻找 特定 值 (value) 的 差异 。 索引 成 员 
测试 需要 国定 的 时 间 ，, 而 值 的 查找 时 间 是 与 数组 里 元 素 的 个 数 成 正比 , 这 点 我 们 在 先前 
已 通过 break 语句 内 的 for 循环 解释 过 了 。 如 果 你 需要 时 常用 到 这 两 种 运算 ， 那 么 构 
建 反 索 引 数 组 会 比较 实用 : 


for {name in telephone)} 
name_by_telephoneltelephonelname]] = name 


接 下 来 ,你 就 可 以 使 用 name_by_telephone["555-0136"] 在 一 定时 间 内 找到 "Carol"。 
当然 ， 这 里 假定 所 有 的 值 是 唯一 的 : 如 果 这 两 人 共享 同一 个 电话 ， 则 name_by-_ 
telephone 数 组 只 会 记录 最 后 一 个 名 称 。 只 要 稍 做 修改 就 能 解决 这 个 问题 : 
for (name in telephone) 
{ 
if {telephone[lname] in name_by_telephone) 


name_by_telephone[ltelephonelname]] = \ . 
’ name_by_telephoneltelephbne[name]] "Nt name 
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else 
name_by_telephone[telephone[name]] = name 
} x 


现在 ,name_by_telephone 即 包含 了 以 制 表 字符 分 隔 的 具有 相同 电话 号 码 的 人 名 列表 。 


9.7.5 ”其 他 的 流程 控制 语句 


我 们 已 讨论 过 break 与 continue 语 句 如 何 解 释 重 复 语 句 内 的 控制 流程 。 有 时， 你 会 需 
要 改变 awk 在 匹配 输入 记录 与 模式 /操作 列表 中 的 模式 时 之 控制 流程 。 有 三 种 情况 要 处 
理 ; 


只 针对 此 记录 及 过 更 进一步 的 模式 检查 
使 用 next 语句 。 有 些 实现 不 允许 在 用 户 定义 函数 中 使 用 next ， 详 见 9.8 节 。 

和 针对 当前 输 人 文件 轿 过 更 进一步 的 模式 检查 
gawk 与 近期 的 nawk 都 提供 nextfile 语 句 ， 它 会 使 得 当前 输入 文件 立即 关闭 ， 
且 模 式 的 匹配 会 从 命令 行 上 下 一 个 文件 里 的 记录 重新 开始 。 
在 旧式 的 awk 实现 下 , 你 可 以 轻松 模拟 出 nextfile 语 句 , 不 过 会 牺牲 一 些 效率 就 
是 了 。 你 可 以 用 SKIPFILE = FILENAME; next 取代 nextfile 语 句 ， 然 后 将 这 


些 新 的 模式 / 操作 组 合 新 增 到 程序 开始 处 : 
FNR == 1 { SKIPFILE = "" } 
FILENAME == SKIPFILE  { next } 


第 一 对 模式 /操作 是 在 每 个 文件 的 起 始 处 ,将 SKIPFILE 重 设 为 空 字符 串 ， 这 么 一 
来 , 在 两 个 连续 参数 出 现 相同 文件 名 时 , 程序 才能 正确 处 理 。 即使 仍 继续 从 当前 文 
件 中 读 取 记录 , 它们 仍 会 马上 被 next 语句 忽略 。 当 到 达 文 件 结尾 且 下 一 个 输入 文 
件 被 打开 时 , 第 二 个 模式 便 不 再 匹配 了 , 所 以 在 它 操 作 里 的 next 语句 就 不 会 被 执 
行 。 

胸 过 整个 工作 的 更 进一步 执行 ， 并 返回 状态 玛 纷 Shel 
使 用 exit nn 语句。 


9.7.6 ”用 户 控制 的 输入 

awk 直接 处 理 命令 行 上 标明 的 输入 文件 , 意 指 绝 大 多 数 的 awk 程序 都 不 必 自 己 打开 与 处 
理 文件 。 它 也 可 以 通过 awk 的 getline 语 句 做 这 件 事 。 例 如 ， 拼 字 检查 程序 ， 通 常 就 
需要 载 人 一 个 或 多 个 目录 之 后 ， 才 能 开始 运行 。 


getline 会 返回 一 个 值 , 且 可 以 以 函数 的 方式 使 用 , 即使 它 其 实 是 一 个 语句 ,而 且 是 具 
有 非 惯 例 语法 的 语句 。 当 输入 被 成 功 读 取 时 ， 它 的 返回 值 为 +1， 而 返回 值 为 0 时 ， 则 表 
示 在 文件 结尾 ， 而 一 1 则 表示 错误 。 它 的 用 法 很 多 ， 见 表 9-4。 
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表 9-4;getline 的 各 种 用 法 


语法 说 明 

getline ， 从 当前 输入 文件 中 ， 读 取 下 一 条 记录 ， 存 入 $0， 并 更 新 NF、NR 
与 FNR。 : 

getline var 从 当前 输入 文件 中 , 读 到 下 一 条 记录 , 存 入 var, 并 更 新 NR 与 FNR。 

getline < file 从 file 中 读 取 下 一 条 记录 ， 存 入 $0， 并 更 新 NF。 

getline var < file 从 file 中 读 取 下 一 条 记录 ， 存 入 var。 

cmd | getline 从 外 部 命令 cmd 读 到 下 一 条 记录 ，、， 存 入 $0， 并 更 新 NF。 


cmd | getline var 从 外 部 命令 cmd 读 取 下 一 条 记录 ， 存 入 var。 





现在 来 看 一 些 getline 的 用 法 。 先 提问 ， 再 读 取 与 检查 答案 : 
print ”What is the Square root of 625?" 


getline answer 
print Your reply, ", answer ", is", (answer == 25) ? "right." : "wrong." 


如 果 我 们 想 要 确保 输入 是 来 自 于 控制 终端 ， 而 非 标 准 输 入 ， 则 改 用 : 


getline answer < "/dev/tty”" 


接 下 来 ， 从 字典 中 载 人 单词 列表 ， 


nwords = 1 
while {(getline words{nwords] < "*/usr/dict/words") > 0) 
nwords++ 


命令 管道 在 awk 里 可 以 发 挥 强大 的 功能 。 管道 可 以 在 字符 字符 串 中 标明 , 也 可 以 包含 任 
意 的 Shell 命令 。 这 里 是 与 getline 搭配 使 用 ， 如 下 : 


"Gate” | getline now. 
closel("date") 
print *The current time is*, now 


大 部 分 系统 会 限制 打开 文件 的 个 数 ， 所 以 当 使 用 管道 通过 时 ， 我 们 道 过 close () 函数 
关闭 管道 文件 。 在 旧式 awk 实现 里 ，close 为 语句 ， 所 以 没有 可 移植 的 方式 ， 可 以 像 
使 用 函数 一 样 使 用 它 ， 并 取得 可 靠 的 返回 代码 。 


接 下 来 说 明 的 是 : 如 何在 循环 里 使 用 命令 管道 ; 


command = "head -n 15 /etc/hosts" 
while {{(command | getline s} > 0) 
print s 


close (command) 


我 们 使 用 变量 保存 管道 ， 以 避免 重复 复杂 字符 串 ， 并 确保 所 有 使 用 的 命令 都 确实 匹配 。 
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在 命令 字符 串 里 , 每 个 字符 都 是 有 意义 的 , 即使 是 不 被 注意 的 单一 空格 差异 , "也 会 引用 
到 不 同 的 命令 。 


9.7.7 ”输出 重 定向 
print 与 printf 语 句 ( 见 9.9.8 节 ) 多 半 是 将 其 输出 传送 到 标准 输出 。 不 过 ,你 也 可 以 
改 成 传送 到 文件 


print *Hello，world" > file 
printf{("The tenth power of %d is %d\n*, 2, 2^10) > "/dev/tty" 


为 了 附加 到 已 存在 的 文件 (或 是 该 文件 不 存在 时 ， 则 建立 一 个 新 的 ) 中 ， 可 使 用 >> 输 
出 重 定向 : 


print "Hello, world*" >> file 


你 可 以 在 多 个 输出 语句 上 ,将 它们 的 输出 全 部 重 定 向 到 相同 的 文件 。 当 完成 写 入 输出 后 ， 
请 使 用 close (file) 关 闭 文 件 ， 释 放 它 使 用 的 资源 。 


请 避免 在 没有 适当 插入 close () 的 情况 下 , 混用 > 与 >> 传 到 相同 文件 。 在 awk 里 , 这 
些 运算 符 告知 输出 文件 应 该 如 何 打开 使 用 ,一 旦 打开 后 ,文件 便 会 一 直 保 持 在 打开 状态 ， 
直到 你 明确 指出 要 关闭 它 或 直到 程序 终结 。 相 比 之 下 , Shell 的 重 定向 是 要 求 每 个 命令 打 
开 文 件 并 关闭 它 。 


或 者 ， 你 也 可 以 将 输出 传送 到 管道 


for (name in telephone) 
print name "\t" telephone[namel | "sort" 
close("sort") 


由 于 输入 是 来 自 管道 , 因此 关闭 输出 管道 的 操作 是 在 完成 时 立即 执行 。 如果 你 需要 在 相 
同 程序 中 读 取 输出 时 , 这 点 格外 重要 。 例如 ,你 可 以 指示 输出 到 临时 性 文件 , 然后 在 完 
成 之 后 再 读 取 它 : 
tmpfile = "/tmp/telephone.tmp" 
Command = "sort > ” tmpfile 
for (name in telephone) 
print name "\t" telephone[name] | command 
close {command) 
while ((getline < tmpfile) > 0) 
print 
close{tmpfile} 


在 awk 里 的 管道 , 使 得 整个 UNIX 工 具 集 可 以 任 我 们 支配 , 避免 对 其 他 程序 语言 中 提供 
大 量 函 数 库 的 需求 , 也 有 助 于 让 语言 保持 在 小 规模 状态 。 例 如 ，awk 不 提供 排序 的 内 建 
函数 ， 因 为 它 只 要 复制 功能 强大 的 sort 命令 的 功能 即 可 ， 详 见 4.1 节 。 
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近期 的 awk 实现 ,除了 POSIX 外 ， 都 提供 将 缓冲 区 数据 导 到 输出 流 的 函数 : 
fflush (file) 。 留 意 一 开始 的 两 个 ££ ( 指 的 是 file flush)。 它 会 在 成 功 时 返回 0; 失 败 
时 返回 一 1。 调 用 fflush() (省 略 参数 ) 与 fflush("") (参数 为 空 的 字符 囊 ) 的 行为 
模式 视 执 行 期 而 定 ， 换 句 话说 ; 请 避免 在 可 移植 性 很 重要 的 程序 里 使 用 它 。 


9.7.8 ”执行 外 部 程序 


我 们 已 在 之 前 提 到 过 , getline 语 名 以 及 在 awk 管道 里 的 输出 重 定向 都 可 与 外 部 程序 通 
信 。system(command) 函数 提供 的 是 第 三 种 方式 : 其 返回 值 为 命令 的 退出 状态 码 。 首 
先 ， 它 会 先 清除 所 有 缓冲 区 输出 ， 然 后 开始 一 个 /bin/sh 实例 并 将 命令 送 给 它 。Shell 
的 标准 错误 输出 和 标准 输出 与 awk 程序 的 相同 ， 所 以 除非 命令 的 IO 被 重 定 向 ,否则 来 
自 awk 程序 和 Shell 命令 两 者 的 输出 ， 都 会 以 预期 的 顺序 出 现 。 
这 里 是 解决 电话 名 录 排 序 问题 较 短 的 程序 方案 , 使 用 临时 性 文件 与 system() , 而 非 awk 
管道 ， 四 

tmpfile = "/tmp/telephone.tmp" 

for (name in telephone) 

print name "\t" telephone [name] > tmpfile 


close (tmpfile) 
system("sort < " tmpfile) 


临时 性 文件 必须 在 调用 system() 之 前 关闭 ， 以 确保 任何 缓冲 区 输出 都 正确 地 记录 在 文 
件 内 。 


对 于 被 system( ) 执行 的 命令 并 不 需要 调用 close(), 因为 close() 仅 针对 以 IO 重 定 
向 运算 符 所 打开 的 文件 或 管道 ， 还 有 getline、 print 或 Printf。 
system() 函数 提供 了 简单 删除 脚本 临时 性 文件 的 方式 : 


system("rm -f " tmpfile) 


传递 给 system() 的 命令 可 包含 数 行 : 


system("cat <<EOFILE\nuno\ndos\ntres\nEOFILE") 


它 产 生 的 输出 和 从 嵌入 文件 复制 到 标准 输出 一 样 ; 


uno 
dos 
tres 


由 于 每 次 调用 system() 都 会 起 始 一 个 全 新 的 Shell, 因此 没有 简单 的 方式 可 以 在 分 开 的 
system() 调 用 内 的 命令 之 间 传 递 数据 , 除非 通过 中 间 文 件 。 下 面 有 个 简单 解决 方案 , 将 
输出 管道 传送 到 Shell， 以 送出 多 个 命令 : 
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潞 
‘© 
如 





Shell = "/usr/local/bin/ksh* 

print "export INPUTFILE=/var/tmp/myfile.in" | Shell 
print "export OUTPUTFILE=/var/tmp/myfile.out" | Shell 
print "env | grep PUTFILE"* | Shell 

close (Shell)} 


这 种 方法 还 提供 一 个 功能 是 : 你 可 以 选择 Shell, 不 过 缺点 是 无 法 在 所 有 平台 上 都 能 取 回 
退出 状态 值 。 


9.8 ”用 户 定 义 函 数 

谈 到 这 里 , 我 们 所 提 过 的 awk 语 名 已 足够 编写 任何 数据 处 理 程序 了 。 由 于 站 在 人 类 的 角 
度 , 很 难 了 解 大 型 程序 块 ， 因此 我 们 需要 将 这 类 的 块 切割 成 更 易于 管理 的 小 数据 块 。 绝 
大 多 数 程 序 语言 都 能 通过 各 式 各 样 的 函数 、 方 法 、 模 块 、 包 及 子 例 程 ， 完 成 此 功能 。 为 
达到 简化 ，awk 只 提供 了 函数 。 就 和 C 一 样 ，awk 函数 也 可 选择 性 地 返回 标量 值 。 只 有 
该 函数 的 文件 或 是 代码 可 以 清楚 地 说 明 调用 者 是 否 可 以 如 期 地 得 到 返回 值 。 


函数 可 定义 在 程序 顶层 的 任何 位 置 : 成 对 的 模式 /操作 组 之 前 、 之 间 、 之 后 。 在 单一 文 
件 的 程序 里 ,惯例 是 将 所 有 函数 放 在 成 对 的 模式 /操作 码 之 后 ， 且 让 它们 依 字母 顺序 排 
列 ， 这 对 人 类 而 言 ， 读 起 来 会 很 方便 ， 不 过 对 awk 而 言 并 没有 任何 特别 之 处 。 
函数 定义 如 下 ; 

function name(argl, drg2, ..., argn) 

{ 


statement (s) 
} 


指定 的 参数 在 函数 体 中 用 来 当 作 局 部 变量 ， 它们 会 隐 蕊 任何 相同 名 称 的 全 局 性 变量 。 曾 
数 也 可 用 于 程序 它 处 ， 调 用 的 形式 为 : 


name (expr1, expr2, ..., exprn) 忽略 任何 的 返回 值 


result = name (exprl, expr2, ..., exprn) 将 返回 值 存储 到 result 中 


在 每 个 调用 点 上 的 表达 式 ， 都 提供 初始 值 给 函数 参数 型 变量 。 以 圆 括号 框 起 来 的 参数 ， 
必须 紧 接 于 函数 名 称 之 后 ， 中 间 没 有 任何 空白 。 


对 标量 参数 所 做 的 变动 ， 调 用 者 无 从 得 知 ， 不 过 对 数组 的 变动 就 可 看 见 了 。 换 句 话说， 
标量 为 传 值 (by vaule) ， 而 数组 则 为 传 引 用 (by reference) : 这 对 C 语 言 也 是 这 样 。 


函数 体 里 的 return expression 语 旬 会 终止 主体 的 执行 ， 并 将 expression 的 值 与 控 
制 权 传 给 调用 点 。 如 果 expression 省 略 ， 则 返回 值 由 实现 期 定义 。 我 们 测试 过 的 所 有 
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系统 , 返回 的 不 是 数字 零 就 是 空 字符 串 。 POSIX 则 未 对 漏 失 return 语 句 或 值 时 的 议题 
给 出 说 明 。 


所 有 用 于 函数 体 且 未 出 现在 参数 列表 里 的 变量 ， 都 被 视 为 全 局 性 (global) 的 。awk 对 
许 在 被 调用 函数 中 的 参数 比 函数 定义 里 所 声明 的 参数 还 要 少 , 额 外 的 参数 会 被 视 为 局 部 
(local) 变量 。 这 类 变量 一 般 都 用 得 到 ， 所 以 惯例 上 是 将 它们 列 在 函数 参数 列表 里 ， 并 
在 字 首 前 置 一 些 额外 的 空白 ， 如 例 9-2 所 示 。 这 个 额外 参数 就 如 同 awk 里 的 其 他 变量 一 
样 ， 在 函数 内 容 中 会 初始 化 为 空 字符 串 。 


例 9-2， 在 数组 中 查找 一 值 

function find key (array, value, key ) 

{ 
# 查找 array[] 以 寻找 value， 并 返回 array [key] == value 
# 的 key， 如 果 找 不 到 该 值 ， 则 返回 "" 


for {key in array) 
if (array[key]j == value) 
return key 
return 9? 


} 


如 果 无 法 成 功 地 将 局 部 变量 列 为 额外 的 函数 参数 , 则 在 调用 程序 使 用 到 变量 时 , 会 很 难 
找到 bug。gawk 提供 了 --dump-variables 选项 协助 这 一 检查 操作 。 


awk 就 像 大 部 分 的 程序 语言 : 其 国 数 也 能 调用 自己 ， 这 就 是 大 家 所 知道 的 递归 
(recursion) 。 显然 这 时 候 , 程序 设计 就 必须 准备 好 什么 时 候 该 结束 递归 : 一 般 的 做 法 是 ， 
在 每 个 连续 性 的 调用 上 ，, 都 让 工作 变 得 越 来 越 少 , 这 么 一 来 到 了 某 个 节点 就 没有 再 进 一 
步 递 归 的 必要 了 。 例 9-3 展现 的 是 一 个 著名 的 例子 ， 其 基础 的 数字 理论 是 由 著名 的 希腊 
数学 家 欧 几 里 德 所 提出 的 方法 ， 寻 找 两 个 整数 的 最 大 公分 母 。 


例 9-3: 欧 几 里 德 的 最 大 公分 母 算法 
function gcd(x, y, r) 
{ 

# 返回 整数 x 与 y 的 最 大 公分 母 


x = int (x) 


Y = inttyy) 
# print x, y 
r= x%y 
return {r == 0) ?yy : gcdly, Ir} 
} 
如 果 我 们 增加 这 个 操作 
{g = gcd($1, $2); print "gcd(" $1 "*, " $2.") =", g} 
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到 例 9-3 的 代码 中 , 拿 掉 print 语句 的 注释 ,并 从 文件 执行 它 , 便 能 看 到 循环 的 运行 方 
式 : 


$ echo 25770 30972 | awk -E gcd.awk 
25770 30972 

30972 25770 

25770 5202 

5202 4962 

4962 240 

240 162 

162 78 

78 6 

gcd(25770, 30972) = 6 


欧 几 里 德 算法 所 采用 的 步骤 相对 较 少 ， 所 以 ， 没 有 awk 里 调用 堆栈 (call stack) 溢出 
的 危险 ， 调 用 堆栈 用 于 保存 嵌 套 函数 调用 历史 的 数据 。 然 而 , 并 非 总 是 这 个 情况 , 还 有 
一 特殊 的 骨 套 函数 ,是 由 德国 数学 家 Wilhelm Ackermann ( 注 3) 在 1926 年 所 发 现 , 其 
值 与 递归 深度 的 成 长 速度 都 比 指数 来 得 快 很 多 。 它 可 以 用 awk 的 代码 定义 ， 见 例 9-4。 


例 9-4: Ackermann 之 worse-than-exponential 函数 


function ack(a，Db) 
{ 
N++ # 计算 递归 深度 
if (a == 0) 
return (b + 1) 
else if (b == 0) 
return (ack(la - 1, 1)) 
else 
return (ack(a - 1,.ack(la, b - 1))) 
} 


如 果 我 们 将 测试 操作 当 作 它 的 参数 : 
€ NE Us print acG(w SELL Wr sg2 sy = SF aoktsLls SZ; Sf Ne eallesl™ } 
然后 在 测试 文件 中 执行 它 ， 会 发 现 ; 


$ echo 2 2 | awk -f ackermann .awk 
ackit2 2) = 7 [27 calls] 


$ echo 3 3 | awk -f ackermann.awk 
ack(3, 3) = 61 [2432 calls] 


$ echo 3 4 | awk -f ackermann.awk 
ackt{3, ) =: "125 [L0307 calle) 


注 3: 见 http://mathworld.wolfram.com/AckermannFunction.html 可 了 解 Ackermann 函数 的 背 
景 与 历史 信息 。 
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$ echo 3 8 | awk -上 ackermann .awk 
ack(3，8) = 2045 1 23 calls] 


ack (4，4) 是 完全 无 法 计算 的 。 


9.9 “字符 捉 函数 
在 9.3.2 节 里 我 们 介绍 过 length(strinpng) 函数 ， 用 来 返回 字符 串 string 的 长 度 。 鞭 


他 常见 的 字符 串 运算 ， 则 包括 有 连接 、 数 据 格式 化 、 字 母 大 小 写 转换 、 匹 配 、 查 找 、 分 
割 、 字 符 串 替换 ， 以 及 子 字符 串 提 取 。 


9.9.1 子 字符 串 提取 


提取 子 字 符 串 的 函数 ; substzr(string，start，1en) ， 会 返回 一 份 由 string 的 
start 字符 开始 ， ee 符 长 度 的 子 字符 串 副本 。 字 符 的 位 置 ， 从 1 开始 编号 : 
substr("abcdae"，2，3) 将 返回 "bcd"。jlen 参 数 可 省 略 ， 省 略 时 ， 则 软 认 为 
length(string) - start + 1， 选 出 字符 串 的 剩余 部 分 。 


substr() 里 的 参数 超出 范围 时 不 是 一 个 错误 , 但 是 结果 会 视 实际 情况 而 定 。 a 
0 he -3，2) 的 结果 为 ee 符 串 ， 

如 果 为 supstr(*RABC"，4，2) 与 Substr("ABC"，1， 0) 则 上 述 三 者 所 得 到 的 结果 
都 为 空 字符 串 。 ae 选项 可 诊断 出 substr ( ) 调用 里 超出 范围 的 参数 。 


9.9.2 ”字母 大 小 写 转 换 

有 些 字母 表 将 大 写 与 小 写 视 为 不 同 格式 , 在 字符 串 查 找 与 匹配 中 , 通常 会 要 求 忽略 字母 
大 小 写 。awk 提供 了 两 种 函数 来 做 这 件 事 : tolower (string) 会 返回 将 所 有 字母 改 为 
同 义 的 小 写 的 string 副 本 ,而 toupper (string) 则 返回 被 改 为 大 写字 母 的 string 
副本 。 所 以 tolower ("aBcDeF123") 返 回 "abcdef123"， toupper ("aBcDeF123" ) 返 
回 "ABCDEBF123"。 这 些 功能 在 ASCII 字 母 下 可 运行 无 误 , 但 无 法 确切 地 转换 重音 字母 。 
字母 , 例如 德 文 小 写 的 8 均 发 的 尖锐 音 )， 其 大 写 形式 为 两 

字母 SS 。 


“9.9.3 ”字符 串 查找 


index (string, fina) 查找 string 里 是 否 有 字符 串 find, 然后 返回 string 里 find 
字符 串 的 起 始 位 置 , 如 果 在 string 里 找 不 到 find, 则 返回 0。 例如 index ("abcdef", 
"de") 会 返回 4。 在 9.9.2 节 里 会 告诉 你 , 例如 index(tolower(string)， 
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tolower (find) ) 可 以 在 查找 字符 串 时 忽略 大 小 写 。 由 于 整个 程序 里 ， 有 时 会 需要 区 分 
大 小 写 ， 所 以 gawk 提供 了 一 个 好 用 的 扩展 : 设置 内 建 变量 IGNORECRASE 为 非 零 值 ， 以 
忽略 在 字符 串 匹 配 、 查 找 以 及 比较 时 字母 的 大 小 写 。 


inaex ( ) 会 寻找 第 一 个 出 现 的 子 字符 串 ， 不 过 有 时 你 要 的 是 最 后 一 个 。 并 没有 标准 的 
函数 可 以 做 这 件 事 ， 不 过 可 以 自已 写 一 个 ,很 简单 ， 见 例 9-5。 


例 9-5: 反 向 的 字符 事 查 找 
function rindex (string, fing, k, ns, nf) 
{ 

# 返回 string 里 最 后 一 个 出 现 的 finad 的 索引 

# 如 果 找 不 到 ， 则 返回 0 


ns length{string) 


nf length (find)} 
for {Kk = ns+1- nf; k >= 1; k--) 
if {substr{(string, k, nf) ==. find) 
return Kk 
return 0 


} 


循环 由 x 值 开始 ， 对 齐 字符 串 string 与 find 的 结尾 ,从 string 中 提取 出 与 find 等 
长 的 子 字符 串 ， 与 fina 比较 。 如 果 匹 配 ， 则 kx 就 是 你 要 的 最 后 一 个 出 现 的 索引 ， 然 后 
函数 返回 该 值 。 否 则 , 我 们 再 退回 一 个 字符 , 直到 kk 退回 到 string 的 开头 才 终 止 循环 。 
如 果 一 直 退 到 起 始 处 都 无 法 匹配 成 功 , 则 表示 在 string 里 找 不 到 find, 我 们 就 返回 索 
引 为 0。 


9.9.4 字符 串 匹配 


match (string, regexp) 将 string 与 正则 表达 式 regexp 匹配 ， 如果 匹 配 ， 则 返回 
匹配 string 的 索引 ,不 匹配 , 则 返回 0。 这 种 方式 提供 了 比 表 达 式 (string ~ regexp) 
还 多 的 信息 ,后 者 只 能 得 到 计算 值 1 或 0。 另 外 match() 也 具有 一 个 有 用 的 副作用 : 它 
会 将 全 局 变量 RSTART 设 为 在 string 中 要 开始 匹配 的 索引 值 , 而 将 RLENGTH 设 为 要 匹 
配 的 长 度 。 而 匹配 子 字符 串 则 以 substr (string，RSTART，RLENGTH) 表示 。 


9.9.5 ”字符 串 蔡 换 


awk 在 字符 串 替换 功能 上 ,提供 两 个 函数 : sub (regexp，replacement,， target) 与 
gsub (regexp, replacement, target)。sub() 将 target 与 正则 表达 式 regexp 
进行 匹配 ， 将 最 左边 最 长 的 匹配 部 分 替换 为 字符 串 replacement。gsub () 的 运行 则 有 
点 类 似 ， 不 过 它 会 替换 所 有 匹配 的 字符 串 (前 置 g 表 示 giobal 全 局 之 意 )。 这 两 种 唱 数 
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都 返回 替换 的 数目 。 如 省 略 第 三 个 参数 , 则 其 默认 值 为 当前 的 记录 $0。 这 两 个 函数 是 不 
常用 的 , 因为 它们 会 修改 标量 参数 : 因此 , 它们 无 法 以 awk 语言 本 身 来 编写 。 举 例 来 说 ， 
支票 开具 记录 软件 可 能 会 使 用 gsub(/[^$-0-9.,]/，"*"，amount) 将 所 有 不 能 公开 
的 金额 全 替换 为 星 号 。 


在 sub(regexp, replacement， target) 或 gsub(regexp, replacement, target) 
的 调用 里 , 每 个 replacement 里 的 字符 & 都 会 被 替换 为 target 中 与 regexp 匹配 的 
文本 。 使 用 \& 可 关闭 这 一 功能 ， 而 且 请 记得 如 果 你 要 在 引号 字符 串 里 使 用 它 时 ， 以 双 
反 斜 杠 转 义 它 。 例 如 gsub(/ [aeiouyAEIOUY]/，"&&") 令 所 有 当前 记录 $0 里 的 元 音 
字母 乘 以 两 倍 , 而 gsub(/ [aeiouyAEIOUY] /,， "\\&\\&") 则 是 将 所 有 的 元 音字 母 替换 
为 一 对 & 符号。 


gawk 提供 了 一 个 通用 性 的 函数 : gensub () ,详细 用 法 可 参见 gawk(1) 使 用 手册 。 


要 让 数据 减少 , 替换 通常 比索 引 与 子 字符 串 运 算 好 用 。 可 以 想 一 下 , 从 具有 如 下 文本 文 
件 内 的 一 个 赋值 中 ， 提 取 字 符 串 值 的 问题 ， 如 下 所 示 : 


composer = “PpP. D. Q. Bach" 


如 果 以 替换 的 方式 ， 则 我 们 可 以 用 : 


value = $0 
Sub(/^ *[a-z]+ *= *"/, "", value) 
subl(/" *$/, "", value) 


不 过 以 索引 方式 ， 则 会 像 这 样 : 


start = index($0, "\"*") + 1 
end = start - 1 + index(substr($0, start), "\"") 
value = substr($0, start, end - start) 


我 们 得 更 小 心地 计算 字符 ， 也 无 法 准确 地 匹配 数据 模式 ， 且 还 得 建立 两 个 子 字符 串 。 


9.9.6 ”字符 串 分 割 


awk 针对 当前 输入 记录 $0 自动 提供 了 方便 的 分 割 为 $1、$2、…、$NF, 也 可 以 函数 来 
做 : split (string，array，regexp) 将 string 切 制 为 片段 ， 并 存储 到 array 里 
的 连续 元 素 。 在 数组 里 ， 片 段 放 置 在 匹配 正则 表达 式 regexp 的 子 字符 串 之 间 。 如 果 
regexp 省略， 则 使 用 内 建 字段 分 隔 字 符 FS 的 当前 默认 值 。 函 数 会 返回 array 里 的 元 
素数 量 。 例 9-6 为 示范 split () 的 用 法 。 
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例 9-6: . 分割 字段 程序 的 测试 
{ . 
print "\nField separator = FS = \"" FS "\"" 
n= split{$0, parts) 
for (kK = 1; k <= 了; k++) 
print "parts{(” k "] = \"" parts[k] ”AN 


print "\nField separator = \"{[ ]\"”" 
n = split($0, parts, "[ ]") 
for (k = 1; k <=.n; k++} | 
print "parts[” k *] = \*" parts[k] "\"" 


print "\nField separator = \":\"" 
n = split{($0,'parts, ":") 
for (k = 1; k <= n; k++) 
print "parts{" k "] = \"" PartS[K] "\*" 
print *" 


} 
如 果 我 们 将 例 9-6 的 程序 放 进 文件 里 , 而 且 以 互动 模式 执行 它 ， 即 可 了 解 split () 的 运 
行 : 


$ awk -f split.awk 
Harold and Maude 


Field separator = FS = " " 





parts[i] = "Harold" 
parts[2] = "and" 
Parts[31 = "Maude" 
Field separator = "[ ]* 
PartS[1] = "* 

parts[l2] = "" 

parts[3] = "Harold" 
parts[4] = "" 

parts{5] = "angd’” 
parts[6] = "Maude”" 


Field separator = 
parts[1] = ” Harold and Maude" 


root:x:0:1:The Omnipotent Super User:/root:/sbin/sh 


Field separator = FS = "" 


parts[1] = "root:x:0:1]:The" 
parts[2] = "Ommipotent”" 

parts[3] = *Super" 

parts[4] = "User:/root:/sbin/sh" 
Field separator = "[ ]" 

parts[1] = *root:x:0:1:;The" 
parts[2] = "Omnipotent" 
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parts{[3] 
parts[4] 


"Super" 
"User:/root:/sbin/sh" 


Field separator = ":" 


parts[1] = *root” 

parts[2] = "x" 

parts[3] = "0" 

Darts[4] = "1" 

parts[5] = "The Omipotent Super User”" 
parts[6] = "/root" 

parts[7] = "/sbin/sh" 


请 特别 留意 默认 字段 分 隔 字 符 值 " "与 "[ ] "的 差异 : 前 者 会 忽略 前 置 与 结尾 的 空白 ， 
并 于 运行 时 将 空白 (whitespace) 视 为 一 个 单独 空格 (single space) ， 后 者 则 正好 匹配 
一 个 空格 。 对 绝 大 多 数 文本 处 理应 用 程序 而 言 , 第 一 种 行为 模式 就 已 经 满足 功能 上 的 需 
求 了 。 


以 冒号 为 字段 分 隔 字符 的 例子 显示 出 : 当 字段 分 隔 字符 不 匹配 时 , 则 split () 会 产生 单 
元 素数 组 (one-element array) ， 并 展示 切割 传统 UNIX 管理 文件 /etc/passwd 里 的 记 
录 。 


近期 awk 的 实现 提供 更 一 般 化 的 方式 split {string，chars，,，"*), 将 string 分 
割 为 单字 符 元 素 放置 到 cnars[1] 、chars[2] 、…、chars [length(string) ] 中 。 旧 
式 的 实现 则 要 求 使 用 下 面 这 种 较 没 有 效率 的 方式 : 

n = lengthl{(string) 


for (k = 1; k <= n; k++} 
chars[k] = substr(string, k, 1) 


调用 split(" ,, array) ) 可 删除 array 里 的 所 有 元 素 ， 这 个 方法 比 使 用 循环 进行 数组 
元 素 删 除 还 快 : 


for (key in array) 
delete array[Key] 


当 你 的 awk 实现 不 支持 delete array 轩 可 以 使 用 。 


如 果 你 需要 在 awk 里 通过 多 下 标 数组 执行 重复 操作 , 则 split () 就 是 不 可 或 缺 的 国 数 
了 。 这 里 是 它 的 范例 ; 


for {triple in maildrop) 

机 
spDlitt(triple，Pparte，SUBSEP) 
house_number = Parts[1l] 
street = parts{[2] 
postal_code = parts[3] 
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9.9.7 ”字符 串 重 建 


awk 并 无 标准 内 建 函 数 可 执行 split () 的 反 置 处 理 , 不 过 要 写 一 个 也 很 简单 , 见 例 9-7。 
join () 可 确保 参数 数组 不 会 被 引用 到 ， 除 非 索 引 是 在 范围 之 内 。 否 则 ,一 个 具有 数组 
长 度 为 0 的 调用 可 能 会 建立 array [1] , 而 修改 了 调用 者 的 数组 。 插入 的 字段 分 隔 字 符 为 
普通 字符 串 ， 而 非 正 则 表达 式 ， 所 以 针对 传递 给 split () 的 一 般 正 则 表达 式 ，join () 
不 会 重建 精确 的 原始 字符 串 。 


例 9-7: 将 数组 元 素 组 合 为 字符 事 

function join(array, n, fs, Kz 

{ 
# 重新 组 合 array [1]…array [n] 为 一 个 字符 串 
# 并 以 fs 分 隔 数 组 元 素 


i£ (nm >= 1) 
{ 
s = array[1] 
for (k = 2; k <= n; k++) 
s=s fs array[k] 
} 
return (s) 
} 


9.9.8 字符 串 格 式 化 


最 后 一 个 与 字符 串 相关 的 函数 是 在 用 户 控制 下 格式 化 数字 与 字符 串 : sprintf(format， 
expression1, expression2, . . .) , 它 会 返回 已 格式 化 的 字符 串 作为 其 函数 值 .printf () 
的 运行 方式 也 是 这 样 ,只 不 过 它 会 在 标准 输出 或 重 定向 的 文件 上 显示 格式 化 后 的 字符 串 ， 
而 不 是 返回 其 函数 值 。 较 新 的 程序 语言 以 更 强大 的 格式 化 函数 来 取代 格式 控制 字符 串 ， 
但 相对 而 言 让 代码 变 得 很 元 长 。 按 照 传统 的 文本 处 理应 用 来 说 , sprintf() 与 printf() 
几乎 就 够 用 了 。 


printf() 与 sprintf() 的 格式 字符 串 有 点 类 似 在 Shell 里 的 printfE 命 令 , 详 见 7.4 节 。 
我 们 将 awk 的 格式 项 目 概括 于 表 9-5。 人 精度 以 
及 第 7 章 讨 论 的 标志 修改 符 来 增加 。 


$i、%u 与 $X 并 非 1987 年 语言 重新 设计 时 的 一 部 分 ,不 过 现代 的 实现 都 支持 它们 。 尽 
管 与 Shell 的 printf 命 令 里 很 相似 , 但 awk 的 %c 对 整数 参数 方面 的 处 理 是 不 同 的 , 且 
使 用 %u 的 输出 时 , 对 负数 参数 的 处 理 上 也 有 差异 , 这 是 由 于 Shell 与 awk 在 算术 上 的 不 
同 所 导致 的 。 
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表 9-5: printf 与 sprintf 格式 描述 符 
项 目 说 明 


SC ASCII 字 符 。 显示 相对 应 于 字符 串 参 数 的 第 一 个 字符 , 或 是 在 主机 字符 集 里 , 相 
对 应 于 该 整数 参数 的 编号 的 字符 ， 通 常 是 256 的 余数 。 
SG， & 守 十 进 制 整数 。 


Se 浮 点 格式 ([-1d.precisione[+-]dd)。 

Sf 浮 点 格式 ([-]9d9q.precision)，。 

Sg %e 或 $f 的 转换 ， 因 为 删除 结尾 的 0， 所 以 较 短 。 

和 无 符号 八进制 值 。 

多 S 字符 串 。 

Su 不 带 正 负 号 的 值 , awk 数 字 是 浮 点 数值 : 小 的 负 值 整数 会 以 大 的 正 值 输出 ， 因为 
符号 字 节 被 解释 为 一 个 数据 位 。 | 

sx 不 带 正 负 号 的 十 六 进 制 数字 。 字 母 a-f 表 示 10 到 15。 

SX 不 带 正 负 号 的 十 六 进 制 数字 。 字 母 A-F 表示 10 到 15。 

多 % 字面 上 的 %。 








大 部 分 的 格式 项 目 都 是 直觉 易 懂 的 .不 过 我 们 还 是 得 特别 留意 二 进 制 浮 点 数值 转换 为 十 
进 制 字符 串 时 能 达到 的 精度 ,， 反 向 运算 也 然 , 都 可 能 出 现 难以 解决 的 大 问题 。 比 较 好 的 
解决 方案 只 有 在 1990 年 发 现 的 那个 ， 而 它 需 要 极 高 的 精度 。awk 实现 一 般 是 使 用 底层 
的 C 函数 库 , 进行 sprintf () 格 式 项 目 所 需 的 转换 , 虽然 函数 库 的 品质 一 直 在 改善 , 但 
仍 有 一 些 平台 的 浮 点 转换 精度 存在 不 足 。 再 者 , 浮 点 运行 硬件 的 不 同 与 命令 计算 顺序 的 
差异 , 意味 着 只 要 硬件 架构 稍 有 不 同 , 几乎 来 自任 何 程序 语言 所 产生 的 浮 点 运算 结果 就 
会 有 些许 不 同 。 


当 浮 点 数 出 现在 print 语句 里 时 ，awkx 会 根据 内 建 变量 OFMT 的 值 格式 化 它们 ，OFMT 
的 默认 值 为 "%.6g"。 如 果 有 必要 ， 可 重新 定义 。 


类 似 地 , 当 浮 点 数 转 换 为 连续 字符 串 时 , awk 会 根据 另 一 个 内 建 变量 CONVFMT ( 注 4) 的 
值 进行 格式 化 。CONVFMT 的 默认 值 也 为 "%.6g*。 


例 9-8 测 试 程序 所 产生 的 输出 , 有 点 类 似 近期 Sun Solaris 的 SPARC 系统 提供 的 nawk 版 
本 所 产生 的 结果 : 





注 4: 最初, OFMT 做 的 是 输出 与 字符 事 的 转换 ， 但 POSIX 提出 CONVFMT 后 ,将 它们 两 个 的 用 
途 做 了 区 分 。 大 部 分 的 实现 两 者 都 支持 ， 但 SGI IRIX 与 Sun Solaris /usr/bin/nawk 
不 支持 CONVFMT。 
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$ nawk -f ofmt .awk 








[ 1] OFMT = "%.6g" 123.457 
[ 2] OFMT = "%d" 123 
[ 3] OFMT = ?er 1.234568e+02 
[ 4].OFMT = "$%f" : 123.456789 
[ 5] OFMT = "%g" 2 123.457 
[ 6] OFMT = "%25.16e" 1.2345678901234568e+02 
7] OFMT = "%25.16f" 123.4567890123456806 
8] OFMT = "$%25.16g" 123.4567890123457 
[ 9] OFMT = "%25d" i 123 
[10] OFMT = "%.25d" 0000000000000000000000123 
[11] OFMT = "%25d" 2147483647 
[12] OFMT = "%25d" 2147483647 预期 的 2147483648 
[13] OFMT = "*%25d" 2147483647 预期 的 9007199254740991 
[14] OFMT = "%25.0f* 9007199254740991 


显然 ,尽管 在 浮 点 值 里 可 以 表示 到 53 位 的 精确 度 ， 但 在 这 个 平台 上 的 nawk, 在 $6 格 
式 的 限定 下 ， 只 支持 到 32 位 的 整数 。 相 同 的 nawk 版 本 ,在 不 同 架构 下 执行 ， 便 产生 略 
微 不 同 的 结果 。 例 9-8 为 ofmt .awk 的 源 代码 。 


例 9-8: 测试 OFMT 的 效果 


BEGIN { 
test{ 1, OFMT, 123.4567890123456789) 
test( 2, "%d", 123.4567890123456789) 
test( 3, "%e", 123.4567890123456789) 
test{( 4, "%f", 123.4567890123456789) 
test{ 5, "%g", 123.4567890123456789) 
test{ 6, "%25.16e", 123.4567890123456789) 
test( 7, "%25.16f", 123.4567890123456789) 
test{ 8, "%25.16g", 123.4567890123456789) 
test( 9, "$25d", 123.4567890123456789 ) 
test (10， "%.25d", 123.4567890123456789) 
test {11, *%25d", 2 3L 1) 
test{12, *%25d", 2^31) 
test{13, "*%25d", 2^52 + (2^52 - 1)) 


test (14, "%25.0f", 2^52 + (2^52 :~- 1)) 
} 


function test{n,fmt,value, save_fmt) 
{ 
Save_fmt = OFMT 
OFMT = fmt 
printf{"[%2d] OFMT = \"$%s\"\t", n, OFMT) 
print value 
OFMT = .save_fmt 
} 


我 们 发 现 , 对 于 在 不 同 的 awk 实现 , 这 个 测试 的 输出 会 有 完全 不 同 的 结果 , 甚至 相同 程 
序 在 不 同 发 布 版 本 下 也 可 能 出 现 不 同 的 结果 。 例 如 ， 以 gawk 执行 ， 我 们 会 得 到 : 


$ gawk -上 ofmt .awk 
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[11] OFMT = "%25d" 2147483647 预期 向 右 对 齐 的 结果 -- 


[13] OFMT = "$25d" 9.0072e+15 预期 的 9007199254740991 


1987 年 出 版 的 一 本 awk 书 里 , 对 OFMT 定 义 了 默认 值 , 不 过 这 是 非 正 式 的 语言 定义 , 除 
此 之 外 该 书 并 未 提 及 其 他 的 值 。 有 可 能 各 实现 在 认 知 上 有 所 不 同 ，POSIX 宣称 ， 如 果 
OFMT 不 是 浮 点 格式 规格 的 话 ， 则 转换 结果 是 未 指定 的 ， 因 此 在 这 里 的 gawk 行为 是 被 
允许 的 。 


使 用 mawk， 我 们 发 现 : 


$ mawk -E ofmt .awk 


[ 2] OFMT = "%d" 1079958844 预期 123 
[ 9] OFMT = "%25d" 1079958844 ”预期 123 
[10] OFMT = "%.25d" 0000000000000001079958844 ”预期 00…00123 
[11] OFMT = "%25d" 2147483647 预期 结果 向 右 对 齐 
[12] OFMT = "%25d" > 1105199104 ”预期 2147483648 
= "$%25d" 1128267775 ”预期 9007199254740991 


[13] OFMT 


显然 这 里 在 处 理 格式 为 sd 与 %i 的 大 型 数字 时 会 有 不 一 致 的 特殊 处 理 手法 。 幸 好 , 改 用 
g.0 开 格式 ， 便 能 从 所 有 awk 实现 中 ， 取 得 正确 的 输出 。 


9.10 数值 函数 


awk 提供 的 基础 数值 函数 参见 表 9-6。 大 部 分 都 是 在 很 多 程序 语言 上 常见 的 ， 且 其 精度 
由 底层 本 地 数学 函数 库 的 品质 而 定 。 


表 9-6: 基础 数值 函数 


函数 说 明 ; 

atan2(y，x) 返回 y/x 的 反正 切 ， 值 介 于 -r 与 + 之 间 。 

cos (X) 返回 x 的 余弦 值 (以 弧度 (radians) 计算 )， 该 值 介 于 一 1 与 +1 之 间 。 
exp (x) 返回 x 的 指数 ，ex。 

int (x) 返回 x 的 整数 部 分 ， 截 去 前 置 的 0。 

log (x) 返回 x 的 自然 对 数 。 

rand() 返回 平均 分 布 的 虚拟 随机 ~，0 < r<1。 ， 

sin (x) 返回 x 的 正弦 值 ( 以 弧度 (radians) 计算 )， 该 值 介 于 一 1 与 +1 之 间 。 
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表 9-6: 基础 数值 函数 〈 续 ) 


本 数 :说 卫 - 
sqrt (x) 返回 x 的 平方 。 


srand (x) 设置 虚拟 随机 产生 器 的 种 子 为 x, 并 返回 正确 的 种 子 。 如 果 省 略 x， 则 使 用 


当前 时 间 (以 秒 计 )。 如 果 sranad () 未 被 调用 ， 则 awk 在 每 次 执行 时 会 从 
相同 的 默认 种 子 开始 i mawk 则 不 会 。 








虚拟 随机 数 产 生 器 函数 rand () 与 srand() 是 各 种 awk 实 现 中 程序 库 函 数 里 差异 最 大 的 ， 
因为 有 些 实现 使 用 本 地 的 系统 程序 库 函 数 , 而 非 自 有 代码 , 且 虚 拟 随机 产生 算法 与 精度 
也 有 所 不 同 。 大 部 分 产生 这 类 数字 的 算法 ， 是 经 过 一 组 有 限 的 序列 而 没有 重复 的 步骤 ,，. 
且 在 产生 器 周期 (period) 中 被 调用 的 一 些 步骤 之 后 ， 该 序列 最 终 会 重复 它 自己 。 程 序 
库 文 件 有 时 并 没有 说 清楚 , 单元 区 间 端 点 0.0 与 1.0 是 否 被 包含 在 rand () 的 范围 内 , 或 
者 周期 为 多 少 。 


产生 器 的 结果 区 间 端 点 的 不 明确 性 使 得 程序 很 难 写 。 假 定 想 产 生 介 于 0 到 100 ( 含 ) 的 
虚拟 随机 整数 ， 如 果 使 用 简单 表达 式 int (randa()*100) ， 则 当 rand() 不 返回 1.0 时 ， 
你 根本 不 可 能 得 到 100 的 值 ,但 就 算 返回 该 值 ， 得 到 100 的 次 数 还 是 要 比 0 与 100 间 的 
其 他 整数 少 得 多 ， 因 为 在 产生 器 周期 里 ， 它 只 被 产生 一 次 。 如 果 你 想 ， 那 就 把 100 改 成 
101 就 好 了 ， 这 也 不 可 行 ， 因 为 在 某 些 系统 下 ,， 有 可 能 得 到 101 这 种 超出 范围 的 结果 。 


例 9-9 的 irana() 函数 提供 了 产生 虚拟 随机 整数 的 较 好 方法 。iranad() 强制 整数 端点 ， 
且 如 果 要 求 的 范围 为 空 或 无 效 时 ， 则 返回 一 个 端点 值 。 否则, ifrand () 取样 大 于 区 间 宽 
度 的 整数 ， 把 它 增加 到 1ow， 并 且 如 果 结 果 超 出 范围 ， 则 重 试 。 现 在 ，rand() 是 否 会 
返回 1.0 已 不 是 问题 ， 且 来 自 irand() 的 返回 值 ， 将 和 xzranad () 值 一 样 ， 平 均 分 布 。 


例 9-9: 产生 虚拟 随机 整数 
function irand{low, high, n) 


{ 
# 返回 虚拟 随机 整数 n， 使 得 low <= n <= high 


# 确保 整数 端点 
low = int {low) 
high = int (high) 


# 参数 顺序 的 健康 检查 
if {low >= high) 
return (low) 


# ”在 要 求 的 区 间 里 寻找 值 
do Ry 
n= low + int{rand() * (high + 1 - low)) 
while ({n < low) 1] {high < n))} 
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return {n)} 


} 


如 果 程 序 未 调用 srand (x) , 则 gawk 与 nawk 会 在 每 次 执行 时 都 使 用 相同 的 初始 种 子 ， 
mawk 则 不 是 这 样 。 通 过 调用 srana() 将 当前 的 时 间作 为 种 子 ， 使 得 在 每 次 执行 时 取得 
不 同 的 序列 , 这 是 合理 的 , 但 这 是 假设 时 间 的 准确 度 足够 。 遗 憾 的 是 ， 虽然 机 器 的 速度 
与 日 俱 增 , 但 大 部 分 用 于 现行 awk 实现 里 的 时 钟 其 时 间 和 精确 度 只 是 秒 而 已 , 所 以 极 可 能 
一 连 串 的 模拟 执行 都 在 相同 的 时 刻 内 完成 。 解 决 方法 是 : 避免 在 每 次 执行 中 调用 
srand() 一 次 以 上 ， 并 在 每 次 执行 之 闻 插 入 至 少 一 秒 的 延迟 : 


$ fork in12345 


> do 

> awk 'BEGIN { 

> srand() 

这 for (Kk = 1; k <= 5; K++) 
> printf("%.5f ", rand()). 
> print "" 

> }° 

> sleep 1 

> done 

0.29994 0.00751 0.57271 0.26084 0.76031 
0.81381 0.52809 0.57656 0.12040 0.60115 
0.32768 0.04868 0.58040 0.98001 0.44200 
0.84155 0.56929 0.58422 0.83956 0.28288 
0.35539 0.08985 0.58806 0.69915 0.12372 


没有 sleep 1 语句 的 话 ， 输 出 行 很 有 可 能 会 完全 一 样 。 


9.11 小 结 


我 们 在 本 章 所 展现 的 awk 子 集 , 已 经 能 做 相当 多 的 文本 处 理工 作 。 当 你 了 解 awk 的 命令 
行 , 并 知道 它 如 何 自 动 处 理 输 入 文件 , 那么 写 程序 的 工作 就 简化 到 只 需要 标明 记录 的 选 
定 与 其 相对 应 的 操作 。 这 类 极 简 单 的 数据 驱动 程序 语言 相当 具有 效率 。 相 比 之 下 , 大 多 
数 传 统 的 程序 语言 , 都 必须 车 思 如 何 使 用 循环 处 理 一 连 串 输入 的 文件 , 并 针对 每 个 文件 
处 理 打开 文件 、 读 取 、 选 定 以 及 处 理 记录 直到 文件 结尾 ,还 有 最 后 的 关闭 文件 ,然后 把 
这 些 写 成 一 长 串 的 例 程 。 


当 你 看 到 使 用 awk 处 理 记录 与 字段 有 多 简单 时 , 对 数据 处 理 的 看 法 就 会 大 大 改变 。 你 可 
以 开始 将 大 型 的 任务 , 分 割 为 更 小 、 更 易于 管理 的 工作 。 例 如 ， 当 你 面临 必须 处 理 一 个 
极 复杂 的 二 进 制 文件 时 ， 可 能 是 用 于 数据 库 的 文件 , 或 是 字体 、 图 片 、 幻 灯 片 、 电 子 表 
格 、 排 版 软件 及 字 处 理 器 等 文件 , 你 可 以 设计 或 直接 找 一 组 可 以 将 二 进 制 格式 转换 为 适 
当 标记 的 纯 文本 格式 的 工具 ,然后 再 在 awk 或 其 他 脚本 语言 里 写 一 个 小 小 的 过 滤 程 序 ， 
处 理 文本 的 显示 。 
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本 章 要 讨论 的 是 在 处 理 文件 时 常见 的 一 些 命 令 ， 例 如 : 列 出 文件 、 修 改 它们 的 时 间 玲 、 
建立 临时 性 文件 、 在 目录 层级 中 寻找 文件 、 将 命令 应 用 到 文件 列表 、 计 算 文件 系统 空间 
的 使 用 量 以 及 比较 文件 。 


10.1 列 出 文件 
echo 命令 提供 简单 的 方式 列 出 匹配 模式 的 文件 : 


$ echo /bin/*sh 显示 /bin 下 的 Shel1: . 
/bin/ash /bin/bash /bin/bsh /bin/csh /bin/ksh /bin/sh /bin/tcsh /bin/zsh 


Shell 将 通 配 字 符 模式 替换 为 匹配 的 文件 列表 , 而 且 echo 以 空格 区 分 文件 列表 , 在 单一 
行 上 显示 它们 。 不 过 echo 不 会 更 进一步 解释 它 的 参数 ， 因 此 与 文件 系统 里 的 文件 也 没 
有 任何 关联 。 


1s 命令 则 比 echo 能 作 更 多 的 处 理 ， 因为 它 知 道 自 已 的 参数 应 该 是 文件 。 大 拉 人 合生 
选项 时 , ls 只 会 验证 其 参数 是 否 存在 ， 并 显示 它们 ， 如 果 输 出 并 非 终端 则 以 一 行 一 个 
的 方式 显示 ， 如 果 是 终端 ， 则 为 多 栏 显示 模式 。 马上 看 看 这 三 种 有 何不 同 ， 


$ ls /bin/*sh | cat 在 输出 管道 里 显示 .Shel1 
/bin/ash 
/bin/bash: 
/bin/bsh 
‘binjcsh' 1 … 
/bin/ksh . ee 
/bin/sh 
/bin/tcsh 
/bin/zsh 
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语法 


ls [ options ] [ file(s) ] 


肝 途 
列 出 文件 目录 的 内 容 。 
主要 闭 病 
Ee : ; | 
数字 1。 强制 为 单 栏 输 出 。 在 交互 式 模 式 下 , ls 一般 会 以 适 于 当前 窗口 的 
最 小 宽度 ,使 用 多 个 列 。 : 
显示 所 有 文件 ， 包 括 隐 藏 文件 (文件 名 以 点 号 起 始 的 文件 ) 。 
显示 与 目录 本 身 相 关 的 信息 ,而 非 它 们 包含 的 文件 的 信息 。 
使 用 特殊 结尾 字符 ， 标 记 特 定 的 文件 类 型 。 
仅 适用 于 组 : 省 略 所 有 者 名 称 【 隐 含 -1， 小 写 工 选项 ) 。 
" 列 出 inode 编号 。 


紧 接 着 符号 性 连接 ， 列 出 它们 指向 的 文件 。 


小 写 的 L。 以 兄长 形式 列 出 ， 带 有 类 型 、 权限 保护 、 所 有 者 、 组 、 字 节 计 
数 、 最 后 修改 时 间 和 文件 名 。 


倒置 默认 的 排序 顺序 。 
递归 列 出 ， 下 延 进入 每 个 子 目 录 。 
按照 由 大 到 小 的 文件 大 小 计数 排序 。 仅 GNU 版 本 支持 。 


以 块 (与 系统 有 关 ) 为 单位 ， 列 出 文件 的 大 小 。 
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ls ( 续 ) 
= 
按照 最 后 修改 时 间 改 排序 。 
--full-time 
显示 完整 的 时 间 蕉 。 仅 GNU 版 本 支持 。 
厅 为 模式 
1S 通 常 只 显示 文件 名 称 : 如 须 取得 与 文件 属性 相关 的 信息 , 必须 提供 额外 选 
项 。 文件 是 以 辞典 编排 的 顺序 排序 ,不 过 可 通过 -S 或 -tt 选项 改变 它 。 排 序 
的 顺序 是 按照 系统 环境 语言 (locale) 而 定 。 
合 谷 
许多 ls 实例 都 提供 比 这 里 介绍 还 要 多 的 选项 请 参阅 你 本 地 系统 里 的 使 用 手 
册 ， 了 解 更 多 信息 。 
| 


$ 19 /bin/*sh 以 80 个 字符 宽度 的 终端 窗口 ， 显 示 Shell 








/bin/ash /bin/bash /bin/bsh /bin/csh /bin/ksh /bin/sh /bin/tcsh 
/bin/zsh i 
$ 18 /bin/*sh 以 40 个 字符 宽度 的 终端 窗口 ， 显 示 Shell 


/bin/ash /bin/csh /bin/tcsh 
/bin/bash /bin/ksh /bin/zsh 
/bin/bsh /bin/sh 


为 了 终端 输出 时 , 1s 会 使 用 刚好 适合 的 多 栏 , 将 数据 依 栏 加 以 排列 。 这 只 是 为 了 人 们 方 
便 检 查 ， 如 果 你 要 单 栏 输出 到 终端 , 可 使 用 1s -1 (数字 1) 强制 执行 。 另 外 , 处 理 1s 
的 管道 输出 的 程序 ， 可 预期 得 到 一 个 文件 名 一 行 的 模式 。 


在 BSD、GNU/Linux、Mac OS X 与 OSF/1 的 系统 上 ，1s 会 将 文件 名 里 无 法 打印 的 字 
符 , 在 终端 输出 时 转换 为 问号 , 但 报告 文件 名 到 非 终端 输出 则 不 做 改变 。 来 看 看 这 个 特 
殊 名 称 one\ntwo，\n 为 换行 字符 。 这 里 是 GNU 1s 的 处 理 方式 : 


$ 18 one*two 列 出 特定 的 文件 名 
one?two 
$ lg one*two ] od -a -b 显示 真实 的 文件 名 


0000000 © 1n e nl t w .o nl 
157 156 145 012 164 167 157 012 
0000010 


八进制 输出 工具 程序 cd 会 显示 真正 的 文件 名 :第 一 个 报告 换行 字符 为 名 称 的 一 部 分 , 第 
二 个 则 结束 输出 行 。 下 游 的 程序 会 看 到 两 个 明显 分 开 的 名 称 在 稍 后 的 10.4.3 节 里 会 说 
明 如 何 解决 这 样 的 错乱 。 
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不 同 于 echo 的 是 : 1s 要 求 它 的 文件 参数 要 存在 , 而 且 如 果 它 们 不 存在 将 话 ) 则 会 出 现 


抱怨 : 


$ ls this-file-does-not-exist 


试图 列 出 一 个 不 存在 的 文件 


ls: this-file-does-not-exist: No such file or directory 


$ echo $? 
4 


显示 1s 的 离开 码 


没有 参数 时 ,echo 只 会 显示 一 个 空 行 , 但 1s 会 列 出 当前 目录 的 内 容 。 我 们 先 产 生 一 个 


含有 三 个 文件 的 目录 ， 以 便 讲解 其 行为 模式 .: 
$ mkdir sample 


$ cd sample 
$ touch one two three 


然后 应 用 echo 与 1s 到 它 的 内 容 : 


$ echo * 
one three two 


$ 18 所 
one three two 


$ echo 


$ 18 
one ‘three two 


建立 新 目录 
切换 到 此 新 目录 
建立 空白 文件 


回应 匹配 的 文件 
列 出 匹配 的 文件 
不 带 参 数 的 echo 


这 个 输出 行 是 空 的 
列 出 当前 的 目录 


以 一 个 点 号 为 开头 的 文件 名 ， 在 正规 Shell 模式 匹配 中 会 被 隐藏 。 我 们 来 看 看 在 一 个 含 
有 三 个 隐藏 文件 的 子 目录 中 ， 这 类 文件 是 如 何 被 处 理 的 ， 有 何不 同 : 


$ mkdir hidden 
$ cd hidden 
$ touch .uno .dos .tres 


接 下 来 尝试 显示 它 的 内 容 : 


$ echo * 


实 


$ 1s 


$ ls * 
ls: *: No such file or directory 


建立 新 目录 
切换 到 该 目录 - 
建立 三 个 隐藏 的 空 文件 


回应 匹配 的 文件 
未 有 匹配 者 


列 出 非 隐藏 文件 
这 个 输出 行 是 空 的 


列 出 匹配 的 文件 


当 没有 匹配 模式 的 文件 时 ，Shell 会 将 模式 视 为 参数 : 在 这 里 echo 看 到 星 号 并 打印 它 ， 
而 1s 则 试图 寻找 名 为 * 的 文件 ， 然 后 报告 寻找 失败 。 
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现在 ， 如 果 我 们 提供 匹配 前 置 点 号 的 模式 ， 可 再 进一步 了 解 它们 的 差异 : 
$ echo .* 回应 隐藏 文 件 


‘dos .tres .uno 


$ ls .* 列 出 隐藏 文件 


.dos .tres .uno 


se one ‘three two 
UNIX 目录 总 是 包含 特殊 实例 . ，( 父 目录 ) 以 及 . (当前 目录 )， 且 Shell 会 传递 所 有 的 
匹配 给 这 两 个 程序 。echo 只 报告 它们 , 但 1s 会 做 更 多 的 事 : 当 命令 行 参 数 为 目录 时 ， 
它 会 列 出 该 目录 的 内 容 。 在 我 们 的 例子 里 ， 这 个 列表 会 包含 父 目 录 的 内 容 。 
你 可 以 显示 目录 本 身 的 相关 信息 ， 而 非 其 内 容 ， 只 要 使 用 -ad 选项 即 可 : 

$ 18 -ad .* 列 出 隐藏 文件 ， 但 没有 目录 内 容 


.dos .tres .uno 


$ 19 -ad ../* 列 出 父 文件 ， 但 没有 目录 内 容 
../hidden ../one ../three ../two 


由 于 你 通常 要 的 不 是 显示 父 目录 ,因此 ，1s 还 提供 了 -a 选项 , 提供 打印 当前 目录 里 的 
所 有 文件 ， 包 含 隐藏 文件 在 内 : 


$ 19 -a 列 出 所 有 文件 ， 包 括 隐藏 文件 


dos .tres .uno 


在 此 不 会 列 出 父 目 录 的 内 容 ， 因 为 没有 参数 指定 它 。 


10.1.1 长 的 文件 列 出 


由 于 1s 知道 它 的 参数 是 文件 ， 所 以 可 以 进一步 地 报告 相关 细节 ， 尤其 是 文件 系统 的 一 
些 metadata， 这 个 功能 通常 是 以 -1 (小 写 L) 选项 完成 ， 


$ 19 -1 /bin/*gh 列 出 在 /bin 下 的 Shel1 
-IWXr-Xxr-x 1 root root 110048 Jul 17 2002 /bin/ash 


-IWxXr-xr-x 1 root root 626124 Apr 9 2003 /bin/bash 
Jrwxrwxrwx 1 root root 3 May 11 2003 /bin/bsh -> ash 
Jrwxrwxrwx 1 root root 4 May 11 2003 /bin/csh -> tcsh 
-rwXr-xr-x 1 root. root 206642 Jun 28 2002 /bin/ksh 
Jrwxrwxrwx 1 root root 4 Aug 1 2003 /bin/sh -> bash 
-rwxr-xr-x 1 root root 365432 Aug 8 2002 /bin/tcsh 

2 


-IWXI-Xr-Xx root root 463680 Jun 28 2002 /bin/zsh 


虽然 这 种 输出 形式 是 常见 的 ， 但 是 额外 的 命令 行 选项 ， 可 对 它 的 输出 稍 作 修改 。 
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每 行 上 的 首 字符 描述 文件 类 型 ，- 为 一 般 文件 、d 为 目录 、1 为 符号 连接 。 
接 下 来 的 9 个 字符 ， 则 报告 文件 权限 : 针对 每 个 用 户 、 组 以 及 除 此 外 的 其 他 人 。r 表示 
读 取 、w 表 示 写 人 、x 表示 执行 ， 如 果 未 提供 权限 则 是 -。 


第 二 栏 包 含 连接 计数 : 在 这 里 ， 只 有 /bin/zsh 拥 有 直接 链接 到 另 一 个 文件 ， 但 是 还 有 
其 他 的 文件 未 显示 于 这 里 的 输出 ， 因 为 它们 的 名 称 与 参数 模式 不 匹配 。 


第 三 栏 、 第 四 栏 报告 文件 所 有 者 与 所 属 组 ， 第 五 栏 则 是 以 字 节 为 单位 的 文件 大 小 。 
接 下 来 的 三 栏 是 最 后 修改 的 时 间 蕉 。 这 里 显示 的 是 一 直 沿用 下 来 的 形式 月、 日、 年 ， 
表示 六 个 月 前 的 文件 , 其 他 的 文件 则 是 年 的 部 分 会 被 替换 为 时 间 ( 指 六 个 月 内 的 文件 ): 


$ le -1 /usr/local/bin/ksh 列 出 最 近 的 文件 

-rwWXIwxr-x 1 jones devel 879740 Feb 23 07:33 /usr/local/pbin/ksh 
不 过 ， 在 现代 的 1s 实例 上 ， 时 间 蕉 与 locale 相关 ， 且 使 用 较 少 的 栏 。 这 里 是 在 GNU/ 
Linux 上 测试 的 两 种 1s 版 本 : 

$ LC_TIME=de_CH /usz/local/bin/1le -1 /bin/tcsh 列 出 了 


的 时 间 惟 
-IWxr-xr-x 1 root root 365432 2002-08-08 02:34 /bin/tcsh 


$ LC TIME=fr BE /bin/ls -1 /bin/tcsh 列 出 locale 为 Belgian-French 
的 时 间 改 
-rwxr-xr-x 1 root root 365432 ao 8 2002 /bin/tcsh 


尽管 时 间 改 应 该 已 经 国际 化 ， 但 这 个 系统 在 English 原型 下 ， 报告 错误 的 French 时间 le 
8 aotit 2002 。 


GNU 版 本 允许 显示 完整 的 时 间 精 准 度 ; 下 面 的 例子 是 来 自 SGTIRIX 系统 ， 显 示 一 百 万 
分 之 一 秒 精 准 度 : 


$ /usr/local/bin/1s -1 --full-time /bin/tcsh. 高 精准 度 的 时 间 改 
-r-Xxr-Xxr-x 1 root sys 425756 1999-11-04 13:08:46.282188000 -0700 /bin/tcsh 


前 面 的 1s 命令 说 明 栏 里 ， 呈 现 1s 实例 的 一 些 通用 选项 ， 但 其 实 还 有 更 多 : GNU 的 版 
本 就 有 将 近 40 种 选项 ! 你 将 会 时 常用 到 1s， 所 以 偶尔 重新 详 读 它 的 手册 页 ， 更 新 你 的 
记忆 ， 绝 对 很 有 帮助 。 如 果 你 要 做 的 是 具 可 移植 性 的 Shell 脚本 ， 请 限制 自己 使 用 较 通 
用 的 选项 ， 并 设置 环境 变量 LC_TIME， 司 减 少 因 Joeale 所 产生 的 变异 。 


10.1.2 列 出 文件 的 meta 数据 


当 计算 机 以 精简 的 二 进 制 形式 存储 数据 时 , 针对 相同 的 数据 ,能 够 以 更 详尽 的 形式 提供 
其 数据 内 容 , 可 方便 人 们 或 简单 的 计算 机 程序 阅读 , 这 是 非常 有 用 的 。 我 们 在 本 书 中 已 
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使 用 八进制 输出 工具 od 多 次 ， 它 可 以 将 无 法 打印 的 数据 流 字 节 转 换 为 文字 ， 而 我 们 也 
将 于 13.7 节 探 讨 特殊 文件 系统 /proc， 它 可 以 让 内 部 核心 程序 里 的 数据 更 易于 访问 。 


奇怪 的 是 , 文件 系统 里 的 meta 数 据 , 通过 POSIX 标 准 下 的 fstat ()、lstat() 与 stat () 
函数 库 调用 , 已 长 期 被 C 程 序 设计 员 使 用 , 但 在 Shell 及 脚本 语言 里 , 除了 1s 命令 所 提 
供 的 有 限 形式 以 外 ， 很 难 被 程序 设计 员 访 问 。 


20 世 纪 90 年 代 末 期 ，SGI IRIX 提出 stat 命令 。 在 2001 年 左右 , 为 BSD 系统 及 GNU 
coreutils 包 所 写 的 stat 独立 实例 也 出 现 了 。 不幸 的 是 , 这 三 个 程序 的 输出 格式 完全 不 
同 , 见 附录 B 的 说 明 。 它 们 各 自 拥有 为 数 众多 的 命令 行 选项 , 提供 更 多 对 输出 何 种 数据 
以 及 使 用 何 种 格式 的 控制 .GNU 版 本 是 唯一 构建 在 各 种 UNIX 版 本 之 上 的 , 所 以 如 果 你 
在 它 之 上 进行 标准 化 ， 便 能 在 你 的 本 地 Shell 脚本 内 好 好 利用 它 的 功能 。 


10.2 使 用 touch 更 新 修改 时 间 


a Et 下 面 提 供 的 几 种 方 


cat /dev/null > some-file 复制 空 文件 到 some-file 
printf "" > some-file 打印 空 字符 串 到 some-file 
cat /dev/null >> some-file 附加 空 文件 到 some-file 
printf "" >> some-file 附加 空 字符 串 到 some-file 
touch some-file 更 新 some-file 的 时 间 玲 


不 过 ， 如 果 是 文件 已 存在 ， 前 两 个 操作 就 会 将 文件 大 小 删 减 到 0， 后面 的 三 种 事实 上 什 
么 事 也 不 做 , 只 更 新 最 后 修改 时 间 。 说 得 更 清楚 些 : 比较 安全 的 做 法 是 使 用 touch， 
为 如 果 你 的 意思 是 >> 却 不 小 心 输入 为 > 时， 就 会 毁 了 文件 内 容 。 


有 了 时 在 Shell 脚 本 里 也 会 应 用 touch 建立 空 文件 : 它们 的 存在 与 时 间 改 是 有 意义 的 ,但 
它们 的 内 容 则 否 。 最 常见 的 例子 是 用 于 锁定 文件 , 以 指出 程序 已 在 执行 中 ,: 不 应 启动 第 
二 个 实例 (instance) 。 另 一 种 用 途 则 为 记录 文件 的 时 间 戳 ， 供 日 后 与 其 他 文件 对 照 用 。 


touch 默 认 (或 使 用 -m 选 项 ) 操作 会 改变 文件 的 最 后 修改 时 间 ， 不 过 你 也 可 以 使 用 -a 
选项 改变 文件 的 最 后 访问 时 间 。 时 间 部 分 , 默认 为 使 用 当前 时 间 , 但 你 也 可 以 搭配 -t 选 
项 覆盖 之 ,方式 是 加 上 [ [CC]YY] MMDDhhmm[ .SS] 形 式 的 参数 ,世纪 、 公 元 年 和 秒 数 是 
可 选用 的 ， 月 份 则 为 01 到 12、 日 期 范围 为 01 到 31， 时 区 为 当地 时 区 。 例 如 : 

$ touch -t 197607040000.00 US-bicentennial 建立 生日 文件 


$ 18 -1 US-bicentennial 列 出 文件 
-rw-rw-r--. 1'jones devel 0 Jul 4 1976 US-bicentennial 
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touch 还 提供 -r 选项， 复制 参 照 文 件 的 时 间 戳 : 
$ touch -r US-bicentennial birthday 把 时 间 改 复制 到 新 的 birthqaay 文件 


$ 18 -1 birthday 列 出 新 文件 
-rw-rw-r-- 1 jones devel 0 Jul 4 1976 birthday 


旧 系 统 上 的 touch 命令 并 没有 -上 选项 , 不 过 所 有 现行 版 本 都 支持 此 功能 , 且 POSIX 也 
要 求 具有 它 。 


以 日 期 来 看 ，UNIX 时间 惟 (epoch) 是 从 零 开 始 , 由 1970/11 00:00:00 UTC ( 注 1) 算 
起 。 大 部 分 现行 系统 都 有 一 个 带 正 负 号 32 位 的 时 间 计 数 器 , 每 一 种 加 1, 且 人 允许 日 期 的 
表示 往 前 推 到 1901 年 晚期 , 往 后 则 到 2038 年 ， 当 计时 器 在 2038 年 溢出 时 , 它 就 会 回 到 
1901。 幸好 , 一 些 近 期 的 系统 已 经 切换 到 64 位 计数 器 ;即使 以 一 百 万 分 之 一 秒 计算 , 它 
- 还 是 能 扩展 到 五 十 万 年 以 上 ! 32 位 与 64 位 计时 器 的 时 钟 比较 如 下 : 


$ touch -t 178907140000.00 firat-Bastille-day 为 法 国 建国 日 建立 一 个 文件 
touch: invalid date format ‘178907140000.00’ 32 位 计时 器 显然 是 不 足 的 


§ touch -t 178907140000.00 first-Bastille-day 再 试 试 64 位 计时 器 


$ 1a -1 firet-Bastille-day 顺利 运行 ， 列 出 文件 
-IW-rw-r-- 1 jones devel 0 1789-07-14 00:;00 first-Bastille-day 


要 在 64 位 计时 器 时 钟 的 系统 上 ,以 touch 使 用 未 来 时 间 ， 仍 是 无 法 完成 的 ， 这 是 人 为 
加 的 软件 限制 ， 因 为 人 们 错误 地 认为 POSIX 要 求 的 世纪 只 需要 两 位 数 ; 
$ touch -t 999912312359.59 end-of-9999 可 运行 


$ 1s -1 end-of-9999 列 出 文件 
-rw-rw-r-- 1 jones devel 0 9999-12-31 23:59 end-of-9999 


$ touch -t 1000001010000.00 start-of-10000 失败 . 
touch: invaliqd date format “1000001010000.00: 


幸好 ，GNU 的 touch 提供 另 一 种 选项 可 用 以 规避 POSIX 的 限制 : 
$ touch -d '10000000-01-01 00:00:00，atart-of-10000000 ”进入 下 一 个 百 万 世纪 ! 


$ ls -1 start-of-10000000 列 出 文件 
-rw-rw-r-- 1 jones devel 0 10000000-01-01 00:00 start-of-10000000 


10.3 临时 性 文件 的 建立 与 使 用 


虽然 使 用 管道 可 以 省 去 建立 临时 性 文件 的 需求 ,不 过 有 了 时 临时 性 文件 还 是 派 得 上 用 场 的 。 
UNIX 不 同 于 其 他 操作 系统 的 地 方 就 是 ; 它 没有 那 种 将 不 青 需 要 的 文件 设法 神奇 地 删除 





注 1: UTC 习惯 称 为 GMT; 请 参考 术语 表 中 的 Coordinated Universal Time。 
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的 想法 。 反 倒是 提供 了 两 个 特殊 目录 :， /tmp 与 /var/tmp.( 旧 系统 为 /usr/tmp)， 这 
些 文件 可 如 常 被 存储 ， 当 它们 未 被 清理 干净 时 也 不 会 弄 乱 一 般 的 目录 。 大 部 分 系统 上 
的 /tmp 都 会 在 系统 开机 时 清空 , 不 过 /var/tmp 下 的 在 重新 开机 时 仍 需 存 在 ,因为 有 
些 文字 编辑 程序 ,会 将 它们 的 备份 文件 存放 在 这 里 ,从 而 系统 毁损 后 可 以 用 来 恢复 数据 。 


因为 /tmp 使 用 频繁 ， 有 些 系统 就 会 将 它 放 在 常 驻 内 存 型 (memory-resident) 的 文件 系 
统 里 ， 以 便 快速 访问 ， 如 下 面 这 个 Sun Solaris 系统 里 的 例子 : 


$ af /tmp J 显示 /tmp 下 的 磁盘 剩余 空间 
Filesystem 1K-blocks ‘Used Available Use%®% Mounted on 
swap . 25199032. 490168 24708864 2% /tmp 


将 文件 系统 放 在 替换 空间 (swap) 区 域 里 , 表示 它 存在 于 内 存 中 , 直到 内 存 资源 被 使 用 
得 剩 很 少时 ， 部 分 信息 才 会 写 人 替换 空间 。 





注意 ， 人 临时 性 文件 的 目录 是 共享 的 资源 , 这 也 让 它们 成 了 拒绝 服务 (denial of service, DOS) 攻 
击 的 目标 。 让 其 他 工作 填 满 整个 文件 系统 (或 替换 空间 )， 然 后 窥 伺 系 统 , 或 以 其 他 用 户 身 
份 删除 文件 。 系 统管 理 因此 会 监控 这 些 目录 的 使 用 空间 ， 然 后 执行 cron 作业 ， 清 掉 旧 文 
件 。 此 外 ， 这 些 目录 通常 都 会 设置 粘连 位 (sticky permission bit) ， 使 得 只 有 oot 与 文 
件 所 有 者 可 以 删除 它们 。 是 否 要 设置 文件 权限 以 限制 存储 在 这 样 的 目录 内 的 文件 访问 由 你 
决定 。Shell 脚 本 应 该 都 要 使 用 umask 命 令 ( 见 附录 B), 或 是 先 以 ouch 建立 必需 的 临时 
性 文件 ， 再 执行 choma 将 之 设置 为 适当 权限 。 





为 确保 临时 性 文件 会 在 任务 完成 时 删除 ， 编 译 语言 的 程序 员 可 以 先 开启 文件 ， 再 下 达 
unlink() 系 统 调 用 。 这 么 做 就 会 马上 删除 文件 ， 但 因为 它 仍 在 开启 状态 ， 所 以 仍 可 继 
续 访 问 ， 直 到 文件 关闭 或 工作 结束 为 止 ， 只 要 其 中 一 个 先 发 生 即 可 。 打 开 后 解除 连接 
(unlink-after-open) 的 技巧 一 般 来 说 在 非 UNIX 操作 系统 下 是 无 法 运行 的 ， 在 加 载 于 
UNIX 文 件 系 统 中 目录 上 的 外 部 文件 系统 也 是 这 样 ， 且 在 大 多 数 脚本 语言 中 是 无 法 使 用 
的 。 四 A 








注意 ， 很 多 系统 上 的 /tmp 与 /var/tmp 都 是 比较 小 的 文件 系统 ， 且 通常 加 载 在 独立 于 根 (/) 分 
区 之 外 的 个 别 分 区 (partition) 上 ， 所 以 当 它 被 填 满 时 ， 不 会 妨碍 系统 日 志 的 记录 。 特 别 
的 一 点 是 : 这 也 意味 着 , 你 不 能 在 这 些 目录 下 建立 大 型 的 临时 性 文件 , 供 CD 或 DVD 的 文 
件 系统 映像 使 用 。 如 果 /tmp 被 填 满 了 ,你 可 能 无 法 编辑 程序 ,一直 要 等 到 你 的 系统 管理 
员 解 决 这 个 问题 为 止 ， 除非 ， 你 的 编译 程序 允许 将 临时 性 文件 重 定向 到 其 他 目录 。 
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10.3.1 $$ 变量 


共享 的 目录 或 同一 程序 的 多 个 执行 实例 ， 都 可 能 造成 文件 名 冲突 。 在 Shell 脚本 里 的 传 
统 做 法 是 使 用 进程 ID ( 见 13.2 节 ), 可 以 在 Shell 变 量 $$ 中 取得 ,构建 成 临时 性 文件 名 
的 一 部 分 。 要 解决 完整 临时 性 文件 名 发 生 此 问题 的 可 能 性 , 可 使 用 环境 变量 覆盖 目录 名 
称 ， 通常 是 TMPDIR。 另 外 ， 你 应 该 使 用 trap 命令 ，, 要求 在 工作 完成 时 删除 临时 性 文 
件 ， 请 见 13.3.2 节 。 因 此 ， 常 见 的 Shell 脚本 起 始 如 下 : 


umask 077 | ， 删除 用 户 以 外 其 他 人 的 所 有 访问 权 
TMPFILE=$ {TMPDIR-/tmp} /myprog.$$ 产生 临时 性 文件 名 
trap 'rm -f $TMPFILE' EXIT 完成 时 删除 临时 性 文件 


10.3.2 mktemp 程序 


像 /tmp/myprog.S$S$ 这 样 的 文件 名 会 有 个 问题 : 太 好 猜 了 ! 攻击 者 只 需要 在 目标 程序 执 
行 时 列 出 目录 几 次 , 就 可 以 找 出 它 正在 使 用 的 是 哪些 临时 性 文件 。 通 过 预先 建立 适当 的 
指定 文件 ,攻击 者 可 以 让 你 的 程序 失败 或 读 取 伪造 的 数据 ， 甚 至 重 设 文件 权限 ， 以 便于 
他 (攻击 者 ) 读 取 文 件 。 


处 理 此 类 安全 性 议题 时 ， 文 件 名 必须 是 不 可 预知 的 。BSD 与 GNU/Linux 系统 都 提供 
mktemp 命令 ,供用 户 建立 难以 猜测 的 临时 性 文件 名 称 。 虽 然 底层 的 mktemp ( ) 函数 库 
调用 已 由 POSIX 标准 化 , 但 mktemp 命令 却 没有 。 如 果 你 的 系统 没有 mktemp, 我 们 建 
议 你 安装 源 自 OpenBSD 的 可 移植 版 本 ( 注 2)。 


mktemp 采 用 含有 结尾 X 字 符 的 文件 名 模板 (可 选用 的 ), 我 们 建议 至 少 使 用 12 个 X。 程 
序 会 用 从 随机 数字 与 进程 ID 所 产生 的 文字 或 数字 字符 串 来 取代 它们 ,所 建立 的 文件 名 不 
允许 组 与 其 他 人 访问 ， 然 后 将 文件 名 打印 在 标准 输出 上 。 


注意 ;这 里 是 为 什么 我 们 建议 你 用 12 个 或 以 上 的 X 字 符 。 容 易 可 猜测 的 进程 ID 可 能 有 6、7 个 ， 
所 以 随机 的 字母 数 可 能 只 有 5 个 : 那么 有 525 (3.8 亿 ) 个 随机 字母 字符 串 。 然 而 ， 如 果 只 是 
10 个 X (这 是 mktemp 的 默认 值 ， 请 参考 手册 页 ) 及 7 个 数字 的 PID， 那 么 只 需要 猜 14000 
次 。 我 们 拿手 边 最 快 的 机 器 ,以 40 行 C 程 序 来 测试 这 样 的 攻击 ， 发 现 一 百 万 种 猜测 可 在 3 
秒 之 内 完成 。 


这 里 来 看 看 mktemp 的 使 用 : 


注 2: 可 在 ftp://ftp.mktemp.org/pub/mktemp/ 取得 。 
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$ TMPFILE= mktemp /tmp/myprog.XXXXXXXXXXXX”1| exit 1 建立 唯一 的 临时 性 文件 
$ 18 -1 $TMPFILE 列 出 痢 时 性 文件 


~IW~-—-—~~ 1 jones devel 0 Mar 17 07:30 /tmp/myprog.hJmNZbq25727 


进程 编号 25727 可 从 文件 名 结尾 处 看 出 , 但 副 文 件 名 的 剩余 部 分 就 无 法 预测 了 。 当 临时 
性 文件 无 法 建立 或 没有 mktemp 可 用 时 , 条 件 式 exit 命令 可 确保 马上 终止 程序 并 带 有 
错误 输出 。 


最 新 版 的 mkt emp 允许 省 略 模 板 ， 它 会 使 用 默认 的 /tmp/tmp .XXXXXXXXXX。 然 而 ， 较 
旧版 本 仍 是 需要 模板 ， 所 以 你 的 Shell 脚本 请 避免 使 用 这 种 省 略 方式 。 








警告 HP-UX 的 mktemp 版 本 太 弱 了 : 它 会 忽略 所 有 用 户 所 提供 的 模板 , 然后 以 用 户 名 称 与 进程 
ID 重建 一 个 好 猜 的 临时 性 文件 名 。 我 们 强烈 建议 你 在 HP-UX 安装 OpenBSD 的 版 本 。 





为 避免 在 程序 里 将 目录 名 称 直接 编码 (hardcode) ， 可 使 用 -t 选项 : 让 mktemp 使 用 环 
境 变 量 TMPDIR 所 指定 的 目录 或 /tmp。 


-Q 选 项 要 求 建立 临时 性 目录 : 
$ SCRATCHDIR=`mktemp -Q -t myprog.XXXXXXXXXXXX、 | 上 | exit 1 建立 临时 性 目录 
$ 18 -IFG $SCRATCHDIR 列 出 目录 本 身 
Qrwx------— 2 jones devel 512 Mar 17 07:38 /tmp/myprog.HStsWoEi6373/ 


由 于 组 与 其 他 人 都 无 法 访问 该 目录 , 攻击 者 也 无 从 得 知 你 继续 放 入 的 文件 名 称 , 不 过 如 
果 你 的 脚本 是 开放 公众 读 取 的 , 当然 还 是 可 能 猜 出 来 ! 由 于 目录 无 法 列 出 成 列表 , 所 以 
没有 权限 的 攻击 者 就 无 法 确认 他 的 猜测 。 


10.3.3 /dev/random 与 /dev/urandom 特殊 文件 


:有些 系统 会 提供 两 种 随机 伪 设 备 : /dev/random 与 /dev/urandom。 现在 这 些 仅 在 BSD 
系统 、GNU/Linux、 IBM AIX 5.2、Mac OS X 与 Sun Solaris 9, 搭配 两 个 第 三 方 的 实例 
与 早期 Solaris 版 本 的 计算 机 修整 程序 ( 注 3) 上 , 提供 此 支持 。 这 些 设 备 的 任务 ,是 提 
供 永 不 为 空 的 随机 字 节 数据 流 :这 样 的 数据 来 源 是 许多 加 密 程 序 与 安全 应 用 程序 所 需要 
的 。 虽然 已 经 有 很 多 的 简单 算 潜 可 以 产生 这 种 虚拟 随机 数据 流 , 但 其 实 要 产生 一 个 真正 





注 3: 可 到 有 http://www.cosy.sbg.ac.at/~andi/SUNrand/pkg/random-0.7a.tar.g8z 取得， 与 参 者 
http://sunrpms.maraudingpirates.org/HowTo.html。Sun 提 供 了 修补 程序 (10675[456]-01) 
到 SUNWski 包 ， 让 它们 在 旧式 的 Solaris 里 也 能 使 用 ; 在 http://sunsolve.sun.com/ 可 以 
找到 它们 。 
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的 随机 数据 其 实 是 很 难 的 事 : 这 部 分 请 参考 《Cryptographic Seeurity Architecture: 
Design and Verificationy ( 注 4) 一 书 。 


这 两 个 设备 的 差别 ， We 直到 系统 所 产生 的 随机 数 已 充分 够 
用 ， 所 以 它 可 以 确保 高 品质 的 随机 数 。 相 对 地 ，/dev/urandom 不 会 死 锁 ， 共 数据 的 随 
机 程度 也 不 高 (不 过 这 已 经 足够 通过 大 部 分 随机 统计 测试 了 )。 


由 于 这 些 设备 是 共享 资源 ,攻击 者 轻易 就 能 加 载 拒绝 服务 ,通过 读 取 该 设备 并 丢弃 数据 ， 
阻 断 /dev/random。 现在 比较 一 下 这 两 个 设备 ,请 注意 它们 两 个 在 count 参数 下 的 不 
同 : 
$ time dd count=1 ibs=1024 if=/dev/random > /dev/null 读 取 1KB 的 随机 码 元 组 
0+1 records in | 


0+1 records out 
0.000u 0.020s 0:04.62 0.4% 0+0k 0+0io 86pf+Ow 


$ time dd count= 1024 ibs=1024 if=/dev/urandom > /dev/null 读 取 1MB A 
1024+0 records in 

2048+0 records out 

0.000u 0.660s 0:00.66 100.0% . 0+0k 0+0io 86pf+0w 


/dev/random 被 读 取 的 越 多 , 它 的 响应 越 慢 。 我 们 用 这 两 个 设备 在 几 个 系统 上 实验 ， 发 
现 要 自 /dev/random 提 取 10MB 的 数据 ; 竞 耗 掉 一 天 或 一 天 以 上 。 而 /dev/urandom 在 
我 们 最 快 的 系统 上 执行 ， 三 秒 钟 即 可 产生 相间 的 数据 。 


这 两 个 伪 设 备 都 可 以 取代 mktemp ， 成 为 产生 难以 推测 的 临时 性 文件 名 的 替代 方案 : 
$ TMPFILE=/tmp/secret.$(cat /dev/urandom | od -x | tr -QQ ' | head -n 1) 


$ echo $TMPFILE 显示 随机 文件 名 

/tmp/secret .00000003024Q462705664c043c04410e570492e 
此 处 ,我们 从 /Gev/urandom 读 取 二 进 制 字 节 数据 流 ， 以 oa 将 其 转换 为 十 六 进 制 ， 使 
用 tr 去 掉 空格 ,之 后 在 满 一 行 时 停止 。 因 为 od 将 每 个 输出 行 转换 为 16 个 字 节 ， 因 而 
提供 了 16 x 8 = 和 作为 副 文件 名 ， 或 是 228 ( 约 3.40 x 10%) 种 可 能 的 副 
文件 名 。 如 果 该 文件 名 建立 在 仅 用 户 可 列 出 的 目录 中 ， 则 攻击 者 是 无 从 猜测 的 。 


10.4 寻找 文件 


Shell 模 式 匹配 的 功能 还 不 足以 做 到 匹配 递归 整个 文件 树 状 结构 里 的 文件 ,而 1s 与 stat 
也 没有 提供 Shell 模 式 以 外 其 他 选 定 文件 的 方式 。 Gay UNIX 还 有 其 他 工具 , 提供 比 这 
些 命令 更 好 的 功能 。 





注 4: Peter Gutmann, Springer-Verlag, 2004, ISBN 0-387-95387-6。 
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10.4.1 快速 寻找 文件 


locate 首 度 问世 是 出 现在 Berkeley UNIX, 到 了 GNU findutils 包 里 ( 注 5) 又 再 重新 
实现 。 locate 将 文件 系统 里 的 所 有 文件 名 压缩 成 数据 库 , 以 迅速 找到 匹配 类 Shell 通 配 
字符 模式 的 文件 名 , 不 必 实 际 查找 整个 庞大 的 目录 结构 。 这 个 数据 库 , 通常 是 在 半夜 通 
过 cron, 在 具有 权限 的 工作 中 执行 updatedb 建 立 。1ocate 对 用 户 来 说 有 其 必要 性 ， 
它 可 以 回答 用 户 : 系统 管理 者 究竟 将 gcc 包 放 在 何 处 ? 

$ locate gcc-3.3.tar 寻找 gcc-3.3 版 本 


/home/gnu/src/gcc/gcc-3.3.tar-lst 
/home/gnu/src/gcc/gcc-3.3.tar.gz 


缺乏 通 配 字符 模式 时 ，1ocate 会 报告 含有 将 参数 作为 子 字符 串 的 文件 ; 这 里 找到 两 个 


由 于 locate 的 输出 量 可 能 极 多 ， 它 通常 会 通过 管道 丢 给 分 页 程序 (pager) ， 如 less; 
或 是 查找 过 滤 程 序 ， 例 如 grep 处 理 : 


$ locate gcc-3.3 | fgrep .tar.gz 和 寻找 gcc-3.3， 不 过 仅 报 告 供 流通 用 的 存档 文件 
/home/gnu/src/gcc/gcc-3.3.tar.gz 


通 配 字符 模式 须 被 保护 ， 以 避免 Shell 展开 ,这么 一 来 ocate 才 能 自己 处 理 它 们 : 
$ locate '*gcc-3.3*.tar*!' 在 locate 里 ， 使 用 通 配 字符 匹配 ， 以 寻找 gcc-3.3 


/home/gnu/src/gcc/gcc-3.3.tar.gz 

/home/gnu/src/gcc/gcc-3.3.1.tar.gz 
/home/gnu/src/gcc/gcc-3.3.2.tar.gz 
/home/gnu/src/gcc/gcc-3.3.3.tar .gz 


注意 : locate 或 许 不 适用 于 所 有 站 点 , 因为 它 会 将 被 限制 访问 的 目录 下 的 文件 名 泄露 给 用 户 。 如 
果 有 这 点 考虑 ， 只 需 简单 将 updatedb 的 操作 交 给 一 般 用 户 权限 执行 : 这 么 一 来 ， 不 合法 
的 用 户 便 无 从 得 知 原本 就 不 该 让 它 找到 的 文件 名 了 ,不 过 比较 好 的 方式 是 使 用 secure locate 
包 : slocate ( 注 6), 它 也 会 将 文件 的 保护 与 所 有 权 存 储 在 数据 库 里 , 但 只 显示 用 户 可 以 
访问 的 文件 名 。 


updatedb 提 供 选 项 ， 可 建立 文件 系统 里 选 定位 置 的 1ocate 数据 库 , 例如 用 户 的 根 目 
录 树 状 结构 ， 所 以 locate 可 用 作 个 人 文件 的 查询 。 


注 5: 取 自 fip://ftp.gnu.org/gnu/findutils/。 


注 6; 取 自 ftp://ftp.geekreview.org/slocate/, 
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10.4.2 寻找 命令 存储 位 置 
偶尔 你 也 可 能 会 想 知 道 ， 调 用 一 个 没有 路 径 的 命令 时 ， 它 在 文件 系统 的 位 置 如 何 。 
”Bourne-Shell 家 族 里 的 type 命令 可 以 告诉 你 : 


$ type gcc gcc 在 哪 ? 
gcc is /usr/local/bin/gcce 


$ type type type 是 什么 ? 
type is a Shell builtin 


$ type newgcc . newgcc 是 什么 ? 
newgcc is an alias for /usr/local/test/pin/gcc 


$ type mypwd mypwd 是 什么 ? 
mypwd is a function 


$ type foobar 这 个 (不 存在 的 ) 命令 是 什么 ? 


foobar not found 
请 注意 ，type 为 内 部 Shell 命令 ， 所 以 它 认 得 别名 与 函数 。 


我 们 在 例 8-1 里 展示 过 的 pathfind 命 令 , 提供 的 是 另 一 种 查找 整个 目录 路 径 下 的 方式 ， 
而 不 只 是 type 查找 的 PATH 列表 。 


10.4.3 find 命令 
假定 你 想 选 择 大 于 某 个 大 小 的 文件 , 或 是 三 天 前 修改 过 、 属 于 你 的 文件 , 或 者 拥有 三 个 
或 三 个 以 上 直接 链接 的 文件 ， 就 会 需要 UNIX 工具 集 里 最 强力 的 find 命令 。 


fina 实 例 提 供 了 60 种 之 多 的 不 同 选项 ,所 以 我 们 讨论 的 只 是 其 中 一 小 部 分 而 已 。 本 段 
find 板块 概括 的 是 几 个 比较 重要 的 fina 选 项 。 


如 果 你 需要 在 整个 目录 树 状 结构 分 支 里 绕 来 绕 去 寻找 某 个 东西 ，fina 可 以 帮 你 完成 此 
工作 , 不 过 你 首先 得 好 好 地 把 整个 使 用 手册 读 一 遍 ， 了 解 该 怎么 找 。 GNU 版 本 的 使 用 手 
册 极 其 丰富 ,我 们 建议 你 深入 研究 。 


10.4.3.1 使 用 find 命令 


find 与 其 他 UNIX 命令 最 大 的 不 同 处 在 于 : 要 查找 的 文件 与 且 录 ， 要 放 在 参数 列表 的 
第 一 位 ， 且 目录 几乎 是 递归 地 向 下 深入 (寻找 )。 最 终 要 显示 而 选 定 名 称 的 选项 或 操作 
放 在 命令 行 的 最 后 。 
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find 
语法 | 
find [ files-or-directories | [ options ] 
用 途 
寻找 与 指定 名 称 模式 匹配 于 或 具有 给 定 属性 的 文件 。 
主要 选项 
注意 内 文 介绍 有 有关 部 分 选项 需 接 上 数字 mask 与 的 介绍 : 
-atime n 
选 定 严 天 前 访问 的 文件 。 
-ctime n 
选 定 n 天 前 改过 inode 的 文件 。 
-follow 
接着 符号 性 连接 。 
-group g : 
选 定 组 8 内 的 文件 (g 为 用 户 组 ID 名 称 或 数字 ) 
-links n 
选 定 拥有 nn 个 直接 链接 的 文件 。 
-ls 
产生 类 似 1s 网 长 形式 的 列表 ,而 不 是 只 有 文件 名 。 
-mtime n 
选 定 靖 天 前 修改 过 的 文件 。 
-name'pattern’ 
选 定 文件 名 与 Shell 通 配 字 符 模 式 匹配 的 文件 ( 通 配 字符 模式 会 使 用 括号 
框 起 来 ， 可 避免 Shell 解释 ) 。 
-perm mask 
选 定 与 指定 八进制 权限 掩 码 匹配 的 文件 。 
-prune 
不 向 下 递归 到 目录 树 状 结构 里 。 


-Size n 


选择 大 小 为 nn 的 文件 。 
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find ( 续 ) 


-type t 
选 定 类 型 1 的 文件 ， 类 型 是 单一 字母 : dQ 为 目录 、 工 为 文件 、 1 为 符号 性 连 
接 。 还 有 其 他 字母 表示 其 他 的 文件 类 型 ， 不 过 很 少 用 到 。 


-USer TU 
选 定 用 户 凡 拥有 的 文件 (u 为 用 户 ID 名 称 或 编号 ) 。 

为 
find 向 下 深入 目录 树 状 结构 ,寻找 所 有 在 这 些 目 录 树 下 的 文件 。 接 下 来 ,应 
用 其 命令 行 选项 所 定义 的 选 定 器 ， 选 择 文件 供 进一步 操作 ， 通 常 是 显示 它们 
的 名 称 ， 或 产生 类 似 1s 的 兄长 列 出 。 

登 千 
由 于 find 菊 认 会 向 下 隆 找 目录 ,所 以 当 它 在 大 型 文件 系统 中 终 找 时 ， 会 花 妆 
很 长 的 执行 时 间 。 


find 输 出 的 是 未 排序 的 结果 。 


find 提 供 额 外 选项 , 可 对 选 定 的 文件 执行 任意 操作 。 由 于 这 是 一 个 潜在 的 危 
险 ， 我 们 不 建议 使 用 这 类 选项 ， 除 非 你 的 系统 拥有 严格 的 控制 。 





find 不 同 于 1s 与 Shell 的 地 方 是 : 它 没有 隐藏 文件 的 概念 ， 也 就 是 说 : 就 算是 点 号 开 
头 的 文件 名 ，find 还 是 能 找到 它 。 


另 一 点 不 同 于 1s 的 是 : find 不 排序 文件 名 。 它 只 是 以 它 读 到 目录 的 顺序 依次 显示 , 事 
实 上 这 个 排序 应 是 随机 的 ( 注 7)。 因 此 ,你 可 能 得 在 find 命 令 之 后 ,通过 管道 加 入 sort 
步骤 。 


最 后 一 个 与 1s 不 同 的 地 方 是 : 当 £find 处 理 的 是 目录 时 , 它 会 自动 递归 深入 目录 结构 ， 
寻找 在 那 之 下 的 任何 东西 ， 除 非 你 使 用 -prune 选项 要 求 不 要 这 么 做 。 


当 find 找 到 文件 要 处 理 时 ， 它 会 先 执 行 命令 行 选项 所 设置 的 选择 限制 , 如 果 这 些 测 试 
成 功 , 则 将 名 称 交 给 内 部 的 操作 程序 处 理 。 默 认 操 作 是 将 名 称 打印 在 标准 输出 上 , 不 过 
如 果 使 用 -exec 选项 , 则 可 提供 命令 模板 , 在 其 中 名 称 可 以 被 替换 ,并 再 执行 该 命令 。 
旧 的 fina 实现 会 要 求 明确 地 指出 -print 选项 ,才能 产生 输出 ， 不 过 幸好 这 样 的 不 良 
设计 , 已 在 现行 所 有 实现 中 完成 修正 ， 至 少 我 们 测试 过 的 都 已 完成 修正 ， 包 括 POSIX。 


注 7: 因为 用 户 习 惯 在 ls 与 Shell 通 配 字符 展开 下 ,看 到 排序 后 的 列表 ， 因 此 常常 认定 目录 必 


以 排序 后 的 顺序 存储 名 称 。 但 如 果 你 编写 一 个 调用 opendir()、readdir() 以 及 
closedir() 程 序 库 的 程序 ， 你 就 会 发 现 qsort () 也 需要 是 可 移植 的 ! 
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在 选 定 的 文件 上 自动 执行 命令 是 很 强 的 功能 , 但 也 极度 危险 。 如 果 该 命令 具 破 坏 性 ， 那 
么 最 好 是 让 find 先 将 列表 产生 在 临时 性 文件 中 ,再 由 可 胜任 的 人 小 心地 确认 ,决定 是 


否 将 命令 进一步 自动 化 处 理 。 


使 用 fina 进 行 破坏 性 目的 的 Shell 脚 本, 在 编写 时 必须 格外 小 心 , 之 后 , 也 必须 彻底 执 
行 调试 ， 例 如 在 破坏 性 命令 开始 前 插入 echo， 这 么 一 来 你 可 以 看 看 会 有 哪些 操作 ， 而 


不 必 真 地 执行 它 。 


我 们 先 来 做 一 个 最 简单 的 例子 : 单纯 使 用 find 寻找 当前 目录 树 下 的 所 有 东西 。 正 如 前 


面 的 例子 ， 我 们 先 从 空 的 和 且 录 开始 ， 之 后 再 将 它 填 入 一 些 空 文件 : 
$ 18 | 确认 这 是 一 个 空 日 录 


$ mkdir -p sub/subl 

$ touch one two .uno .dos 

$ touch sub/three Sub/subl/four 
$ find 


./Sub 
./Sub/subl 
./Sub/subl/four 
./sub/three 
./one 

/two. : 

.7 .uno 

./.dos 


这 个 混乱 的 列表 可 以 很 轻松 地 完成 排序 ， 


$ find | LC _ ALL=C sort 


./.dos 

./.Uuno . 

./one 

./Sub 
./Sub/subl 
./sSub/subl/foudr 
/sub/three 

. /two : 


设置 LC_ALL 取得 传统 的 (ASCII) 排序 顺序 ， 这 是 因为 现行 sort 实现 都 与 locale 相 


关 ， 见 4:1.1 节 。 


finq 还 有 一 个 好 用 的 选项 : -1s， 可 得 到 如 指定 了 1s -1iRs 的 输出 结果 。 不 过 ， 它 


建立 一 个 目录 树 “ 

在 该 目录 最 上 层 建 立 一 些 空 文件 

在 树 状 结构 较 深层 的 地 方 建立 一 些 空 文件 
从 此 开始 寻找 所 有 东西 


以 传统 顺序 ， 排 序 fina 的 输出 结果 


缺乏 进一步 的 选项 控制 这 个 元 长 显示 的 格式 ，; 
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$ find -19 寻找 文件 ， 并 使 用 1s 风格 的 输出 结果 
1451550 4 drwxr-xr-- 3 jones devel 4096 Sep 26 09:40 
1663219 4 drwxrwxr-x 3 jones devel 4096 Sep 26 09:40 sub 
1663220 4 drwxrwxr-x 2 jones devel 4096 Sep 26 09:40 ./sub/subl 
1663222 0 -rw-rw-r-- 1 jones devel 0 Sep 26 09:40 ./sub/subl/four 
1663221 0 -rw-rw- 1 jones devel 0 Sep 26 09:40 ./sub/three 
1451546 0 -rw-rw-r-- 1 jones devel 0 Sep 26 09:40 ./one 
1451547 0 -rw-rw-r-- 1 jones devel 0 Sep 26 09:40 ./two 
1451548 0 -rw-rw-r--— 1 jones .devel 0 Sep 26 09:40,./.uno 
1451549 0 -rw-rw-r-- 1 jones devel 0 Sep 26 09:40 ./.dos 
$ find -le | gort 寻找 文件 ， 并 以 文件 名 排序 . 
1451550 4 drwxr-xr--— 3 jones devel 4096 Sep 26 09:40 . 
1451549 0 -rw-rw-r-- 1 jones devel 0 Sep 26 09:40 ./.dos 
1451548 0 -rw-rw-r-- 1 jones devel 0 Sep 26 09:40 ./.ino 
1451546 0 -rw-rw-r-- 1 jones devel ”0 Sep 26 09:40 ./one 
1663219 4 drwxrwxr-x 3 jones devel | 4096 Sep 26 09:40 ./sub 
1663220 4 drwxrwxr-x 2 jones devel 4096 Sep 26 09:40 ./sub/subl 
1663222 0 -rw~rw-r-~ 1 jones devel 0 .Sep 26 09:40 ./sub/subl/four 
1663221 0 -rw-rw-r-- 1 jones devel 0 Sep 26 09:40 ./sub/three 
1451547 0 -rw-rw-r--. ,1 jones devel “0 Sep 26 09:40 ./two 

为 作对 照 ; 这 里 我 们 以 1s 显示 相同 的 文件 meta 数据 ， 
$ 18 -liRs * . 显示 1s 递归 的 元 长 输出 
752964 0 -rw-rw-r-- 1 Jones devel 0 2003-09-26'09:40 one 
752965 0 -rw-rw-r-- 1 jones devel 0. .2003-09-26 09:40 two 
sub: 
total 4 : 
752963 4 drwxrwxr-x 2 jones devel 4096 2003-09-26 09:40 subl 
752968 0 -rw-rw-r-- 1 jones devel 0 2003-09-26 09:40 three 
sub/subl: 
total 0 
752969 0 -rw-rw- 1 jones devel 0 2003-09-26 09:40 four 


现在 我 们 给 


$ find :oOx， 
one 


$ find eub 
sub 

sub/subl 
sub/subl/four 
sub/three 


接 下 来 ， 我 们 抑制 目录 向 下 寻找 的 功能 ， 


$ find -prune 


$ find 。 -prune 


find 命令 一 些 文件 模式 ， 


寻找 此 目录 下 ， 以“o" 开头 的 文件 


在 目录 sub 下 寻找 文件 


不 要 在 此 目录 下 导 找 


相同 操作 的 另 一 种 方式 
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$ find * -prune 寻找 此 目录 下 的 文件 
one 
sub 
two 


$ ls -d* 列 出 文件 ， 但 没有 目录 内 容 ， 

one sub two 
请 注意 : 没有 文件 或 目录 参数 , 是 等 同 于 当前 的 目录 , 所 以 前 两 个 例子 只 会 报告 该 目录 。 
然而 ， 星 号 会 匹配 每 一 个 非 隐 藏 文件 ， 所 有 第 三 个 find 的 运行 ， 就 如 同 1s -daQ， 只 不 
过 它 是 一 行 显示 一 个 文件 。 


这 时 便 是 试 试 fina 几 个 强大 选项 的 时 候 了 。 我 们 从 所 有 者 与 组 的 选 定 开始 : 选项 
-group 与 -user 都 需要 一 个 接着 的 符号 名 称 或 数值 识别 码 。 因 此 , find / -user root 
会 启动 执行 很 久 的 查找 文件 操作 ， 它 会 在 root 拥有 的 整个 树 状 结构 中 查找 文件 。 除 非 
此 命令 是 由 root 执行 ， 否 则 目录 权限 几乎 一 定 会 隐藏 此 树 状 结构 的 主要 部 分 。 


你 可 能 会 预期 在 登录 目录 树 中 的 所 有 文件 都 属于 你 。 要 确认 这 件 事 ， 只 要 执行 find 
S$HOME/. ! -user $USER 即 可 。 人 惊叹号 是 非 的 意思 ， 也 就 是 说 ， 这 条 命令 就 是 : 从 
我 的 根 目录 开始 ， 列 出 所 有 不 属于 我 的 文件 。HOME 与 USER 两 个 都 是 标准 Shell 变量 ， 
用 于 定制 你 的 登录 ， 所 以 这 个 命令 适用 于 所 有 人 。 我 们 用 $SHOME/ . 而 非 只 是 $SHOME， 
使 得 如 果 $SHOME 为 符号 连接 ， 命 令 也 可 正常 运行 。 


-perm 需 要 接 上 一 个 八进制 字符 串 的 权限 掩 码 , 其 可 以 具有 选用 的 正 / 负 号 。 如 掩 码 不 
带 任何 正 负 号 ， 则 必须 有 确实 的 匹配 权限 。 如 果 为 负 号 ， 则 所 有 的 位 设置 都 必须 匹配 。 
如 果 为 正 号 , 则 至 少 须 有 一 个 位 设置 要 匹配 。 看 来 有 点 复杂 , 我 们 将 惯用 的 方式 放 在 表 
10-1 中 。 


表 10-1: find 的 常见 权限 设置 


选项 意义 

-perm -002 寻找 (所 有 者 与 组 外 的 ) 其 他 人 可 写 入 的 文件 。 
-perm -444 寻找 任何 人 都 可 读 取 的 文件 。 

! -perm -444 寻找 任何 人 都 无 法 读 取 的 文件 。 

-perm 444 寻找 权限 为 r--r--r-- 的 文件 。 

-perm +007 寻找 其 他 人 可 访问 的 文件 。 

! -perm +007 寻找 其 他 人 无 法 访问 的 文件 。 


-size 选 项 必须 接 上 一 个 数字 参数 。 默 认 值 是 以 512 字 节 为 单位 的 大 小 ,不 过 很 多 fina 
实例 ， 人 允许 在 数字 之 后 加 上 c 表 示 字 符 ( 字 节 )， 或 k 表 示 kilobyte (KB ) 。 如 果 数 字 未 
带 有 正 负 号 , 则 指 的 是 必须 确实 匹配 于 该 文件 大 小 。 如 果 为 负 ， 则 只 有 小 于 该 数字 ( 绝 
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对 值 ) 的 文件 大 小 是 匹配 的 。 否则 , 带 有 正 号 , 则 只 有 大 于 该 容量 的 文件 才 匹 配 。 所 以 ， 
find $HOME/. -size +1024k 会 在 你 登录 目录 树 下 的 所 有 文件 中 ， 寻 找 是 否 有 大 于 
1MB 的 ， 而 find . -size 0 则 是 寻找 当前 目录 下 的 所 有 文件 中 是 空 角 


-type 选 项 必须 接 上 一 个 单词 母 参数 ， 以 标明 文件 类 型 。 较 重要 的 几 个 为 G 的 目录 、 f 
的 一 般 文件 ， 以 及 1 的 符号 连接 。 


-follow 选 项 要 求 find 接 上 符号 连接 ， 你 可 以 用 此 来 找 出 断 掉 的 连接 : 


$ls 显示 我 们 有 一 个 空 目录 下 
$ ln -s one two 为 不 存在 的 文件 建立 软 性 (符号 性 ) 连接 
$ file two- : 诊断 此 文件 
two: broken symbolic link to one 
$ fina . 寻找 所 有 文件 
. /two 
$ find . -type 1 只 找 软 性 连接 
./two ee 
$ find . -type 1 -follow 寻找 软 连接 ， 并 试图 跟随 它们 


find: cannot follow symbolic, link ./two: No such file or dC tory 


-links 选 项 要 求 接 上 一 个 整数 。 如 未 指定 正 负 号 , 它 会 只 选择 具有 指定 数量 的 直接 连 
接 的 文件 ， 如 果 为 负 号 ， 则 只 寻找 连接 数 小 于 该 数字 (绝对 值 ) 的 文件 ， 如 果 为 正 号 ， 
则 仅 选 择 连 接 数 大 于 该 数 的 文件 。 因 此 ， 如 果 你 要 寻找 具有 直接 链接 的 文件 , 通常 是 这 
样 : find . -links +1。 


-atime (访问 时 间 )、-ctime (inode 变更 时 间 ) 与 -mt ime (修改 时 间 ) 选项 必须 接 
上 一 个 以 天 为 单位 的 整数 。 未 指定 正 负 号 ， 即 指 确实 的 几 天 前 ， 如 果 为 负 ， 则 指 少 于 访 
天 数 (绝对 值 )， 为 正 ， 则 为 大 于 该 天 数 。 一 般 惯用 法 为 fina . -mtime -7 可 寻找 一 
周 前 修改 过 的 文件 。 





警告 : 可 惜 的 是 ， fina 不 允许 数目 是 部 分 (分 数 ) 的 , 或 是 单位 字 尾 的 : 我 们 常会 需要 以 年 、 月 、 
周 、 时 、 分 或 种 为 这 些 选 项 的 单位 。GNU fina 提供 的 -amin、-cmin, 与 -mmin， 可 
以 分 钟 为 单位 ， 但 是 在 原始 时 间 蕉 选择 选项 上 的 单位 字 尾 应 该 是 要 更 一 般 化 的 。 








有 个 相关 的 选项 -newer 三 1ename， 可 以 仅 选 择 比 指定 文件 更 接近 最 近 时 间 修 改过 的 
文件 。 如果 你 要 的 单位 比 这 个 时 间 还 精细 ,可 以 建立 一 个 空 文件 touch -t date_time 
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timestampfile, 然后 以 此 文件 搭配 使 用 -newer 选项。 如 果 你 要 找 的 是 比 该 文件 更 但 
的 文件 ， 使 用 否定 选项 即 可 :1! -newer timestampfile。 


fina 命令 的 选择 器 选项 也 可 合并 使 用 : 也 就 是 所 有 的 匹配 都 匹配 ， 才 采取 操作 。 你 也 
可 以 另外 配置 -a (AND) 选项 , 而 -oe (OR) 选项 也 可 用 于 标明 在 其 左右 两 边 的 匹配 中 
至 少 有 一 组 匹配 的 情况 。 下 面 便 是 应 用 这 些 布尔 运算 符 的 两 个 例子 ， : 


$ find . -size +0 -a -size -10 寻找 文件 大 小 块 小 于 10 (5120. 字 节 ): 的 非 空 文件 
$ find . -aize 0 -o -atime +365 导 找 空 文件 , 或 过 去 一 年 都 未 读 取 过 的 文件 


-a 与 -o 运 算 符 , 配 上 组 选项 \ (与 \) ， 可 用 以 建立 更 复杂 的 布尔 选择 器 。 你 应 该 很 少 
需要 用 到 ， 而 当 你 使 用 时 , 会 发 现 它们 已 复杂 到 : 一 旦 它们 需要 被 调试 时 ， 你 得 在 脚本 
中 隐藏 它们 ， 然 后 在 调试 完 后 再 使 用 该 脚本 . 


10.4.3.2 find 的 简易 版 脚本 
到 目前 为 止 , 我 们 已 使 用 find 产 生 匹 配 特定 选择 需求 的 文件 列表 , 还 可 以 设法 将 它们 
送 进 一 个 简单 的 管道 。 现在 ,让 我 们 来 看 看 更 复杂 一 点 的 例子 。 在 3.2.7.1 布 里 , 我 们 介 
绍 过 简单 的 sed 脚本 ， 可 将 HTML 转换 为 XHTML: 

“$ cat S$HOME/html2xhtm] .sged ' 显示 将 HTML 转换 为 XHTML 的 sd 命令 | 


S/<H1L>/<h1>7/g 
s/<H2>/<h2>/9g, 


S:</Hl>:</hl>:g 
:</H2>:</h2>:9g 


4s] 


:</ {Hh] [Tt] [Mm] (LL]>:</html>g 
:</ {Hh] {TE] {Mm] {L1] >:</html>:g 
:<[Bb] [Rr]>:<br/>:g 


mn 人 ne， 


这 样 的 脚本 可 以 将 HTML 转换 为 XHTML (HTML 的 标准 化 以 XML 为 主 的 版 本 ) 的 绝 
大 部 分 工作 自动 化 。 将 sed 结合 finG, 辅 以 简单 的 循环 可 以 让 工作 减少 为 只 \ 有 下 面 几 
cd top level web site directory. : s 
find . -name ’'*.html’' -type £ | 寻找 所 有 HTML 文件 


while read file 将 文件 名 读 进 变量 里 
. do 5 SR 

echo $file 打印 处 理 进度 

mv $file $file.save ' 存储 备份 副本 

sed -f SHOME/htmli2xhtml .sed < save > $file 开始 变更 
done 
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10.4.3.3 find 的 复杂 版 脚本 

本 节 , 我 们 将 更 纯熟 地 应 用 find, 开发 一 个 真正 实用 的 范例 ( 注 8)。 这 个 Shell 脚本 叫 
作 filesdirectories, 它 是 针对 具有 大 型 根 目录 树 状 结构 的 部 分 本 地 用 户 , 在 夜间 通 
过 crontab 系 统 ( 见 13.6.4 节 )， 整 理 之 前 修改 过 的 文件 ， 以 天 数 划分 成 组 ， 建立 文件 
与 目录 的 多 个 列表 。 这 样 做 有 助 于 提醒 他 们 近期 做 过 的 事 , 且 提供 的 是 一 个 更 快 的 方式 ， 
也 就 是 他 们 只 需要 查找 单一 的 列表 文件 , 就 能 在 他 们 的 目录 结构 下 找到 特定 文件 , 而 不 
必 确 实地 寻找 整个 文件 系统 本 身 。 


filesdirectories 必须 使 用 GNU 的 find 以 便 使 用 -fprint 选项 , 该 选项 允许 在 一 
次 通过 整个 目录 树 下 建立 多 个 输出 文件 ,这样 的 脚本 可 以 较 原始 UNIX fina 的 多 重 调 
用 版 本 ， 高 出 10 倍速 (tenfold speedup)。 
这 段 脚 本 将 由 一 般 安 全 性 功能 开始 : 在 #1 行内 标明 - 选项 ， 见 2.4 节 ， 

#! /bin/sh - ， 本 
设置 IFS 变量 为 换行 符号 (空格) 制 表 字 符 (newline-space-tab ) : 


IFS= 


并 设置 PATH 变量 , “以 确保 先 找 GNU 的 Finad;: 


PATH=/usr/local/bin:/bin:/usr/bin  # 需要 GNU find 的 -fprint 选项 
export PATH 


接着 ,确认 参 数 是 否 为 预期 的 单一 参数 ， 否 则 ， 显 示 简 短 的 错误 信息 到 标准 错误 输出 ， 
并 以 非 零 状态 值 离开 : : 


if [ $# -ne 1 ] 

then 
echo "Usage: $0 directory" >&2 
exit 1 

下 


作为 最 后 一 项 安全 性 功能 ， 这 段 脚 本 引用 umask 限制 仅 输出 文件 的 所 有 者 可 以 访问 : 


umask 077 # 确保 文件 私密 性 
filesdirectories 人 允许 TMPDIR 环境 变量 覆盖 默认 的 临时 性 文件 目录 : 
TMP=$ {TMPDIR: - /tmp} # 允许 另 一 个 临时 性 目录 


下 一 步 是 将 TMPFILES 初始 化 为 一 长 串 收 集 输出 的 临时 性 文件 列表 : 


注 8: 感谢 University，of Utah 的 Pieter J. Bowman 贡献 。 
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TMPFILES=" Ee 
STMP/DIRECTORIES.all.$$ S$STMP/DIRECTORIES.all.$$.tmp 
STMP/DIRECTORIES. last01.$$ $TMP/DIRECTORIES.1last01.$$.tmp 
$TMP/DIRECTORIES. last02.$$ $TMP/DIRECTORIES.1last02.$$.tmp 
STMP/DIRECTORIES. last07.$$ S$TMP/DIRECTORIES.1last07.$$.tmp 
STMP/DIRECTORIES.last14.$$ S$TMP/DIRECTORIES..last14.$$.tmp 
STMP/DIRECTORIES.1last3] .$$ S$TMP/DIRECTORIES.1last31.$$.tmp 
STMP/FILES.all .$$ $TMP/FILES.all.$$.tmp 

STMP/FILES:. last01.$$ S$STMP/FILES.1last01.$$.tmp 
STMP/FILES.last02.$$ S$TMP/FILES.1last02.$$.tmp 
STMP/FILES.1last07.$$ S$TMP/FILES.1last07.$$.tmp 
STMP/FILES.last14.$$ S$TMP/FILES.1ast14.$$.tmp 
STMP/FILES.1last31.$$ $TMP/FILES.1last31.$$.tmp 


机 


这 些 输出 文件 包括 了 整个 树 状 结构 下 (* .al1l.*) 的 目录 与 文件 之 名 称 , 以 及 在 前 一 天 
(* .Iast01.*)、 前 两 天 〈* .Last02.*) 等 那些 修改 过 的 名 称 。 
WD 变量 存储 参数 目录 名 称 ， 供 稍 后 使 用 ， 然 后 脚本 会 变更 到 该 目录 : 


WD=$1 
cd SWD 1| exit 1 


在 执行 find 之 前 变更 工作 中 目录 ， 可 解决 两 个 问题 : 
。 ”如 果 参 数 非 目 录 , 或 是 但 缺乏 必需 的 权限 ,那么 ca 命令 会 失败 ; 脚本 会 立即 以 非 
零 离开 值 而 终止。 


。 ”如 果 参 数 为 符号 连接 ， 则 ca 会 按照 这 个 连接 找到 真正 的 位 置 。fina 如 果 未 给 定 
额外 选项 ， 是 不 会 跟随 符号 连接 的 ， 但 是 没有 方法 可 以 告诉 它 只 为 顶层 目录 这 么 
做 。 实 际 上 ， 我 们 不 要 filesdirectories 按照 目录 树 里 的 连接 ， 尽 管 增加 一 个 
选项 以 如 此 做 并 不 难 。 


trap 命令 确保 临时 性 文件 会 在 脚本 终止 时 被 删除 : 


trap ‘exit 1' HUP INT PIPE QUIT TERM 
trap 'rm -f S$TMPFILES' EXIT 


离开 状态 值 会 在 跨 过 EXIT 捕捉 之 后 仍 被 保留 ， 见 13.3.2。 


接 下 来 的 部 分 就 是 最 精彩 , 也 是 最 困难 的 工作 了 , 多 行 find 命 令 。 使 用 -name 选 项 的 
行 , 会 匹配 来 自前 次 执行 的 输出 文件 名 称 , 而 -true 选 项 会 忽 路 这 些 操 作 , 以 免 这 些 信 
息 弄 乱 输 出 报告 : 


find . \ 
-name DIRECTORIES.all -true \ 
-Oo -name :DIRECTORIES .last[0-9] [0-9]' -true \ 
-0 -name FILES.all -true \ 
-oO -name ’'’FILES.last{[0-9] [0-9]' -true \ 
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下 一 行 会 匹配 所 有 的 一 般 文 件 ， 并 利用 -fprint 选项 ， 将 它们 的 名 称 写 到 $ TMP/ 
FILES.all.$$:. 


-oO -type £f -fprint S$TMP/FILES.all.$$ \ 


接 下 来 的 5 行 ， 分别 选 定 31、14、7、2 以 及 1 天 前 修改 过 的 文件 (-type f 选择 器 仍 
有 效 )， 再 以 -fprint 选项 将 它们 的 名 称 写 到 指定 的 临时 性 文件 : 


-a -mtime -31 ~fprint S$TMP/FILES.]ast31.$$ \ 
-a -mtime -14 -fprint S$TMP/FILES.]last]4.$$ \ 
-a -mtime -7 -fprint S$TMP/FILES.]last07.$$ \ 
-a -mtime -2 -fprint S$TMP/FILES.l]ast02.$$ \ 
-a -mtime -1 -fprint $TMP/FILES.]ast01l.$$ \ 


测试 操作 是 由 最 旧 到 最 新 依次 完成 ， 因 为 每 一 组 文件 , 都 是 前 一 组 的 子 集合 , 在 每 一 步 
又 逐步 减少 处 理 量 。 因 此 10 天 前 的 文件 会 通过 前 两 个 -mtime 测试 ， 但 是 会 使 得 接 下 
来 的 三 个 失败 ,所 以 , 它 只 会 被 包括 在 FILES.last31.$$ 与 FILES.1last14.$$ 文 件 里 。 


下 一 行 乃 匹配 目录 , 并 使 用 -fprint 选 项 将 它们 的 名 称 写 到 $TMP/DIRECTORIES.all. 
$$; 
-oO -type Q ~fprint $TMP/DIRECTORIES.all.$$ \ 


fina 命令 的 最 后 5 行 匹配 目录 的 子 集合 ( 仍 使 用 -type a 选择 器 )，, 再 将 它们 的 名 称 
写 到 输出 文件 : 


-a -mtime -31 -fprint S$TMP/DIRECTORIES.last31.$$ \ 
~a -mtime -14 -fprint S$TMP/DIRECTORIES,.last14.$$ \ 
-a -mtime -7 -fprint S$TMP/DIRECTORIES.l]ast07.$$ \ 
-a -mtime -2 -fprint S$TMP/DIRECTORIES.]ast02.$$ \ 
-a -mtime -1 -fprint S$TMP/DIRECTORIES.]ast01.$$ \ 


当 find 命令 结束 时 ， 它 的 初步 报告 可 在 临时 性 文件 中 获得 ， 只 不 过 还 没 存储 。 然 后 脚 
本 会 循环 处 理 这 些 报告 文件 ， 最 后 结束 工作 : 
for i in FILES.all FILES.]last31 FILES.]ast14 FILES.]last07 \ 
FILES.l]ast02 FILES. last01 DIRECTORIES.all \ 
DIRECTORIES .1ast31 DIRECTORIES.]last1l4 \ 


DIRECTORIES .1ast07 DIRECTORIES .1ast02 DIRRCTORIES .1ast01 
Qo 


sed 会 将 每 个 报告 行 前 置 的 . / 替换 为 用 户 指定 的 目录 名 称 ， 所 以 输出 文件 会 包含 完 
整 一 一 而 非 相 对 的 路 径 : 


sed -e "s=^[.]/=$WD/=" -e "s=^[.]$=$WD=" STMP/Si.SS |] 


sort 将 sed 的 结果 进行 排序 , 传人 临时 性 文件 , 并 将 文件 命名 为 :输入 文件 名 加 上 .tmp 
结尾 : 
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LC_ALL=C sort > $TMP/S$i.$$.tmp 


将 LC_ALL 设 为 C 可 产生 传统 UNIX 排序 顺序 ,， 也 就 是 我 们 长 期 以 来 惯 于 使 用 的 , 这 么 
做 可 避免 设置 为 较 现代 的 locale 时 可 能 造成 的 混 清 与 非 预期 情况 。 因为 我 们 的 系统 各 有 
不 同 的 默认 locale， 所 以 使 用 传统 顺序 ， 在 我 们 互 异 的 环境 下 ,特别 有 帮助 。 


cmp 命 令 为 默认 检查 报告 文件 是 否 不 同 于 前 次 执行 的 报告 文件 ,如 果 不 同 , 则 换 掉 旧 的 : 


cmp -S $TMP/S$i.$$.tmp $i || mv $TMP/$i.$$.tmp $i 
否则 ， 留 下 临时 性 文件 ， 由 trap 处 理 器 进行 清除 操作 。 
脚本 的 最 后 一 个 语句 ， 会 完成 处 理 报 告 文件 的 循环 : 


done 


执行 期 间 ， 脚 本 通过 之 前 设置 的 EXIT 捕捉 而 终止。 


完整 的 filesdirectories 脚 本 见 例 10-1。 其 架构 清晰 , 足以 让 你 轻松 地 略 作 修 改 , 即 
可 产生 其 他 报告 文件 ， 例 如 15 分 钟 前 、 半 年 前 或 一 年 前 修改 过 的 文件 和 目录 。 改 变 
-mtime 值 的 正 负 号 , 即 可 取得 最 近 没 有 修改 过 的 文件 的 报告 , 这 对 于 找 出 过 时 的 文件 
很 有 用 。 


例 10-1: find 的 复杂 版 Shell 脚本 


#! /bin/sh - 

# 寻找 所 有 的 文件 及 目录 ， 

# 在 目录 树 下 , -将 最 近 修 改过 的 加 以 组 化 ， 

# 并 于 最 上 层 的 FILES.* 与 DIRECTORIES.* 内 置 立 列表 。 
# 

# 语法 : 


# filesdirectories directory 

IFS=" 

PATH=/usr/local/bin:/bin:/usr/bin  # 需要 GNU find 的 -fprint 选项 
export PATH 


if [ $# -ne 1 ] 


then 
echo "Usage: $0 directory" >&2 
exit 1 
£4 
umask 077 # 确保 文件 隐私 
TMP=$ {TMPDIR:-/tmp} # 允许 另 一 个 临时 性 目录 
TMPFILES=" 


$TMP/DIRECTORIES.all .$$ $TMP/DIRECTORIES.all .$$.tmp 
$TMP/DIRECTORIES.last01.$$ $TMP/DIRECTORIES.last01.$$.tmp 
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STMP/DIRECTORIES.1last02.$$ S$TMP/DIRECTORIES.last02.$$.tmp 
$TMP/DIRECTORIES. last07.$$ $TMP/DIRECTORIES.1last07.$$.tmp 
$TMP/DIRECTORIES.1last14.$$ $TMP/DIRECTORIES.1last14.$$.tmp 
$TMP/DIRECTORIES .last31.$$ $TMP/DIRECTORIES.1last31.$$.tmp 
S$TMP/FILES.all.$$ $TMP/FILES.all.$$.tmp 

$TMP/FILES,. last01.$$. $TMP/FILES.last01.$$.tmp 
$TMP/FILES.1last02.$$ S$TMP/FILES.last02.$$.tmp 
$TMP/FILES.1last07.$$ $TMP/FILES.1last07.$$.tmp 
STMP/FILES.1last14.$$ S$TMP/FILES.1last14.$$.tmp 
STMP/FILES.1last31.$$ $TMP/FILES.1last31.$$.tmp 


1 


WD=$1 
cd SWD 1| exit 1 


trap 'exit 1' HUP INT PIPE QUIT TERM 


trap ‘rm -f STMPFILES ' EXIT 


find . \ 


-name, DIRECTORIES .all -true \ 
-0O -name ‘'DIRECTORIES.1last[0-9] [0-9]’ -true \ 


-OO -name FILES.all -true \ 


-0 -name ‘FILES.last{[0-9] [0-9]: -true \ 


-CO -type f -fprint 
-a -mtime -31 -fprint 
-a -mtime ~14 -fprint 
-a -mtime -7 -fprint 
-a -mtime -2 -fprint 
-a -mtime -1 -fprint 
-DO -type a -fprint 
-a -mtime -31 -fprint 
-a -mtime: -14 -fprint 
-a -mtime -7 -fprint 
-a -mtime -2 -fprint 
-a -mtime -1 -fprint 


for i in FILES.all FILES.]last31 FILES. 


$STMP/FILES.all.$$ \ 
STMP/FILES.last31.$s$ 
STMP/FILES.last14.$$ 
STMP/FILES.1last07.$$ 
STMP/FILES.1last02.$$ 
STMP/FILES.last01.$$ \ 
S$TMP/DIRECTORIES.all.$$ \ 
$TMP/DIRECTORIES.last31.$$ 
$TMP/DIRECTORIES.1last14.$$ 
$TMP/DIRECTORIES. last07.$$ 
STMP/VDIRECTORIES .1ast02.8$$ 
STMP/VDIRECTORIES .1ast01.55S 


We 


last14 FILES.1last07 \ 


FILES.last02 FILES.1Last01 DIRECTORIES.all \ 
DIRECTORIES .1ast31 DIRECTORIES.1last14 \ 
DIRECTORIES .1ast07 DIRECTORIES .1ast02 DIRECTORIES .1ast01 


do 
sed -e "s=^[.]/=$WD/=" -~e "s=^[.]$=$WD=" STMP/S$i.$$ | 
LC_ALL=C sort > S$TMP/S$i.$$.tmp 
cmp -S S$TMP/S$i.$$.tmp $i |]] mv $TMP/S$i.$$.tmp $i 
done 


10.4.4 寻找 问题 文件 


一 一 一 一 


在 10.1 节 里 , 我 们 注意 到 包含 特殊 字符 (如 换行 字符 ) 的 文件 名 有 点 麻烦 。GNU find 
具有 -print0 选 项 , 以 显示 文件 名 为 NUL 终 结 的 字符 串 。 由 于 路 径 名 称 可 包含 任何 字 


符 , 除了 NUL 以 外 ， 所 以 这 个 选项 ， 可 产生 能 够 被 清楚 解析 的 文件 名 列表 。 
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使 用 典型 的 UNIX 工 具 很 难 去 剖析 这 种 列表 , 因为 它们 大 部 分 都 假定 是 行 导向 的 文字 输 
入 。 然 而 ,在 使 用 一 次 一 个 字 节 (byte-at-a-time) 输入 的 编译 语言 中 ， 例 如 C、C++ 或 
Java, 会 很 直觉 地 编写 一 个 程序 诊断 文件 系统 里 是 否 有 问题 的 文件 名 。 有 了 时 它们 只 是 单 
纯 程 序 员 的 错误 ， 有 时 是 攻击 者 通过 伪装 文件 名 隐藏 他 们 的 存在 而 放 在 那里 的 。 


假设 你 执行 目录 列 出 ， 且 得 到 这 样 的 结果 : 
S 18 列 出 目录 


第 一 眼 , 你 可 能 觉得 没 问 题 啊 , 因为 我 们 知道 空 目 录 总 是 会 包含 两 个 特殊 的 隐藏 点 号 文 
件 ， 指 的 是 当前 目录 与 父 目 录 。 然 而 ， 请 注意 这 里 我 们 并 未 使 用 -a 选项 ， 所 以 我 们 不 
应 该 看 到 任何 隐藏 文件 , 而 且 在 输出 的 第 一 个 点 号 之 前 出 现 一 个 空格 , 有 点 不 对 劲 ! 让 
我 们 用 find 和 od 作 进 一 步调 查 吧 ，: 


$ find -print0 | od -ab 将 以 NUL 终结 的 文件 名 ， 和 ASCII 
0000000 . nul / sp . nul 4 / sp 。 nul 

056 000 056 057 040 056 000 056 057 040 056 056 000 056 本 056 
0000020 nl nul / ， 。 SP 5 :SB 。 Sp nl 


012 000 056 057 056 056 50 056 056 040 056 056 040 056 040 012 
0000040 nl nl sp sp nul 

012 012 040 040 000 
0000045 


我 们 通过 tr 的 帮助 , 让 这 个 信息 更 具 可 读 性 , 将 空格 转换 为 S、 换行 字符 转 为 N, 而 NUL 
则 变 成 换行 符号 : 


$ find -print0 | tr ' \n\0' 'SN\n' 将 问题 字符 转换 为 可 见 的 S 与 N 


现在 知道 发 生 什么 事 了 : WU 然后 有 一 个 文件 叫 作 “空格 一 一 
点 号 ”， 另 一 个 则 是 “空格 一 一 点 号 一 一 点 号 ”， 另 有 叫 作 “点 号 一 一 换行 符号 ”， 以 
及 最 后 一 个 叫 作 “ 点 号 点 号 空格 点 号 点 号 
空格 一 一 换行 符号 一 一 换行 符号 一 一 换行 符号 空 
空格 ”的 文件 。 除 非 有 人 正在 你 的 文件 系统 里 练习 摩 斯 码 (Morse code) ， 否 
则 这 些 文件 看 起 来 令 人 可 疑 ， 因 此 在 去 除 这 些 文件 之 前 ， 你 应 该 先 做 一 番 调 查 。、 























10.5 执行 命令 ; xargs 
当 find 产 生 一 个 文件 列表 时 ， 将 该 列表 提供 给 另 一 个 命令 有 时 是 很 有 用 的 。 通 常 ， 这 
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是 通过 Shell 的 命令 替换 功能 完成 ， 就 像 下面 : 在 系统 标 头 文件 里 ,查找 POSIX_OPEN> 
MAX 符号 : 


$ grep POSIX OPEN MAX /dev/null $(find /usr/include -type 上 | sort) 
/usr/include/limits.h:#define _POSIX_OPEN_MAX 16 


当 你 编写 程序 或 使 用 命令 , 处 理 这 样 一 串 对 象 列表 时 ， 如果 列表 为 空 , 你 也 应 该 确保 它 
的 行为 是 适当 的 。 因 为 grep 在 没有 给 定 任何 文件 参数 的 情况 下 , 会 读 取 标准 输入 ， 所 
以 我 们 可 以 提供 /aev/null 这样 的 参数 ， 以 确保 不 会 因为 find 未 产生 输出 ,而 等 待 
终端 输入 悬 在 那 。 在 这 里 不 会 发 生 这 种 情况 ， 但 开发 防御 性 程序 的 习惯 是 好 的 。 


来 自 替换 命令 所 产生 的 输出 有 时 会 很 长 , 可 能 还 会 遇 到 在 kernel 里 , 因为 对 命令 行 的 结 
合 长 度 的 限制 ， 以 及 超出 其 环境 变量 的 问题 。 发 生 这 种 情况 时 ， 你 会 看 到 : 


$ grep POSIX OPEN MAX /dev/null $(find /usr/include -type £ | sort) 
/usr/local/bin/grep: Argument list too long. 


你 可 以 通过 getconf 查询 该 限制 ; 


$ getconf ARG_ MAX 取得 ARG_MAX 的 系统 组 态 值 
131072 
在 我 们 测试 过 的 系统 中 ， 报告 值 的 范围 从 最 少 24 576 (IBM AIX) 到 最 多 1 048 320 


(Sun Solaris ) 。 


ARG_MAX 问题 的 解决 方案 就 看 xargs 了 : 它 可 以 在 标准 输入 上 取得 参数 列表 、 一 行 一 
个 ， 再 将 它们 以 适当 大 小 组 起 来 (由 主机 的 ARG_MAX 值 决 定 ) 传 给 另 一 个 命令 ， 此 命 
令 再 作为 xargs 的 参数 。 下 面 范例 ， 即 可 剔除 讨厌 的 argument 1List too long 的 
错误 : 

$ find /usr/include -type f | xargs grep POSIX OPEN MAX /dev/null 


/usr/include/bits/posix!l_lim.h:#define _POSIX_OPEN_MAX 16 
/usr/include/bits/posixl_lim.h:#define _POSIX_FD_SETSIZE _POSIX_OPEN_MAX 


这 里 的 /aev/nul1 参 数 可 确保 grep 总 是 会 看 到 至 少 两 个 文件 参数 , 使 它 于 每 个 报告 匹 
配 的 起 始 处 ， 打 印 文件 名 。 如果 xaxgs 未 取得 输入 文件 名 , 则 它 会 默认 地 终止 ， 基 至 不 
会 调用 它 的 参数 程序 。 


GNU 的 xargs 支持 --null 选项 : 可 处 理 GNU fina 的 -print0 选 项 所 产生 的 NUL 
结尾 的 文件 名 列表 。xargs 将 每 个 这 样 的 文件 名 作为 一 个 完整 参数 , 传递 给 它 执行 的 命 
令 , 而 没有 Shell (错误 ) 解释 问题 或 换行 符号 混淆 的 危险 ; 然后 是 交 给 该 命令 处 理 它 的 
参数 。 


xargs 的 选项 可 以 控制 哪个 参数 需要 被 替换 , 还 可 以 限制 传递 给 参数 命令 的 一 次 引用 所 
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使 用 的 参数 个 数 。GNU 的 版 本 甚至 可 以 并 行 处 理 / 执 行 多 个 参数 进程 , 然而 大 多 数 时 候 ， 
我 们 这 里 介绍 的 简单 形式 已 足够 应 付 了 。 如 需要 进一步 的 细节 , 或 参考 更 复杂 之 功能 与 
技巧 的 范例 ， 可 参考 xargs(1) 的 手册 页 。 


10.6 文件 系统 的 空间 信息 


辅 以 适当 的 选项 , finad 与 1s 命令 可 以 报告 文件 大 小 ， 所 以 加 上 简短 的 awk 程序 协助 ， 
可 以 得 到 文件 占据 了 多 少 字 市 的 报告 : 


$ find -ls | awk '‘{Sum += $7} END (protE (ToL: %: 0f bytes\n", Sum)}! 
Total: 23079017 bytes 9 

然而 ， 这 样 的 报告 低估 了 空 s 间 的 使 用 ， 因为 文件 以 固定 大 小 的 块 (block) 配置 , 它 并 未 

告诉 我 们 整个 文件 系统 里 已 用 了 多 少 及 还 可 用 多 少 空间 。 有 两 个 好 用 的 工具 提供 更 完美 

的 解决 方案 : Gf 与 Gu。 


10.6.1 df 命令 


Gf (disk free, 磁盘 可 用 空间 ) 提供 单行 摘要 ， 一 行 显示 一 个 加 载 的 文件 系统 的 已 使 用 
的 和 可 用 的 空间 。 其 单位 视 系统 而 定 ， 有 些 使 用 块 ， 有 些 则 是 kilobytes (KB)。 大 部 分 
现代 实现 都 支持 -k 选项 ， 也 就 是 强制 使 用 kilobyte 单位， 以 及 -1 (小 写 L) 选项 , 仅 
显示 本 地 文件 系统 ， 人 下 面 是 我 们 自 某 个 网 页 服务 器 输出 的 传 
统 范例 ; 


$ df -K 

Filesystem 1lK-blocks Used Available Use$® Mounted on 
/dev/sda5 5036284 2135488 2644964 45% / 
/dev/sda2 38890 8088 .| 28794 22% /boot 
/dev/sda3 10080520 6457072 3111380 68% /export 
none 513964 0 513964 0% /dev/shm 
/dev/sda8 101089 4421 91449 5% /tmp 
/dev/sda9 . 13432904 269600 12480948 3% /var 


/dev/sdaé6 4032092 “1683824 2143444 44% /ww 


GNU 的 df 提供 -h (human-readable， 人 们 易于 理解 的 ) 选项 , 产生 更 简洁， 但 可 能 较 
令 人 混淆 的 报告 : 


.S$ af -h 和 . 
Filesystem Size Used Avail Uses Mounted on 
/dev/sda5 _ 4.9G 2.1G 2.6G 45%$ / 
/dev/sda2 和 38M 7.9M 29M 22% /boot 
/dev/sda3 9.7G 6.2G 3.0G 68% /export 
none 502M 0 502M 0% /dev/shm 
/dev/sda8 :1 ， 99M’ 4.4M 90M 5% /tmp 
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/dev/sda9 13G 264M 12G 3% /var 
/dev/sda6 3.9G 1.7G 2.1G 44% /ww 


输出 行 任意 排列 ， 不 过 因为 有 一 行 标 头 ， 又 得 保留 它 ,， .所 以 要 应 用 sort 排序 就 变 得 较 
难 。 幸 好 ， 绝 大 多 数 系统 上 这 样 的 输出 都 只 有 几 行 而 已 。 


你 还 可 以 提供 一 个 或 多 个 文件 系统 名 称 或 加 载 点 的 一 份 列表 ， 来 限制 输出 项 目 ， 


$ GE ~-IK /dev/sda6 /var 





Filesystem 1lK-blocks Used Available Use® Mounted on 
/dev/sda6 4032092 1684660 2142608 45% /ww 
/dev/sda9 13432904 269704 12480844 3% /var 
语法 
df.[ options ] [ files-or-directories 1] : 
用 途 
显示 一 个 或 多 个 文件 系统 内 的 inode 或 空间 使 用 情况 。 
主要 竟 项 
-i 


显示 inode 计数 ,而 非 空间 。 
-Kk 
显示 空间 时 ， 以 kilobyte (KB) 为 单位 ,而 非 块 。 
-1 
小 写 工 ， 仅 显 示 本 地 文件 系统 。 > 
并 为 
df 会 针对 每 个 文件 或 目录 参数 ， 如 果 无 提供 参数 ， 则 为 所 有 的 文件 系统 ， 产 
生 单行 标 头 以 识别 输出 栏 ， 再 接 上 包含 该 文件 或 目录 的 文件 系统 之 使 用 量 报 
告 


EE | 
每 个 系统 上 的 Gf 输出 各 异 ， 因 此 如 果 使 用 在 必须 具 可 移植 性 的 Shell 脚本 上 
会 很 不 可 靠 。 

Gf 的 输出 是 未 排序 的 。 

针对 远 庙 文件 系统 所 做 的 空间 报告 可 能 不 尽 伏 完全 正确 。 








L2 


报告 仅 为 当时 (快照 ) 的 系统 状态 ,对 于 运行 中 的 多 用 户 系统 而 言 , ， 在 极 短 的 时 间 内 就 
可 能 会 有 完全 不 同 的 结果 。 
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对 于 加 载 网 络 的 文件 系统 ,在 Filesystenm 栏 里 的 实例 记录 会 前 置 主 机 名 称 
(hostname:)， 这 么 一 来 ， 某 些 af 实例 ， 便 会 为 了 适应 栏 宽 而 切 分 为 两 行 ， 对 其 他 软 
件 来 说 ， 要 解析 这 样 的 输出 信息 相当 国手 。 下 面 就 是 Sun Solaris 系统 下 的 例子 : 


$ df 
Filesystem 1k-blocks Used Available Uses Mounted on 
/dev/sddl 17496684 15220472 1387420. 92% /export/local 


fs:/export/home/0075 
35197586 33528481 1317130 97% /a/fs/export/home/0075 


df 中 关于 远 端 文件 系统 的 可 用 空间 报告 不 尽 完全 正确 ,这 是 由 于 软件 实例 在 计算 供 紧 急 
情况 使 用 所 保留 的 空间 不 同 所 致 。 


在 附录 B 中 ， 我 们 会 讨论 文件 系统 中 有 关 inode 表格 的 议题 ，inode 表格 为 固定 不 变 大 
小 ， 且 在 文件 系统 创建 时 即 已 设置 。-i (inode unit，inode 单位) 选项 提供 访问 inode 
使 用 量 的 一 种 方式 。 下 面 为 同一 台 网 页 服务 器 下 的 范例 ， 


$ df -i 

Filesystem Inodes IUsed IFree IUse%® Mounted on 
/dev/sda5 640000 106991 533009 17% / 
/dev/sda2 10040 35 10005 1% /boot 
/dev/sda3 1281696 229304 1052392 18% /export 
none 128491 1 128490 1% /dev/shm 
/dev/sda8 26104 144 25960 1% /tmp 
/dev/sda9 1706880 996 1705884 1% /var 
/dev/sda6 513024 218937 294087 43% /ww 


/ww 文件 系统 是 最 完美 的 状态 : 因为 它 的 inode 使 用 与 文件 系统 空间 ， 两 者 都 保留 40% 
以 上 的 容量 可 用 。 对 一 个 健康 的 计算 机 系统 而 言 , 系统 管理 者 应 该 例 行 地 监控 所 有 本 地 
文件 系统 上 inode 的 使 用 量 。 


df 命令 在 选项 与 输出 外 表 中 有 很 大 的 差异 ， 这 对 于 想 分 析 其 输出 结果 的 可 移植 程序 来 
说 ， 是 相当 麻烦 的 。Hewlett-Packard 在 HP-UX 上 的 实现 更 是 完全 不 同 ， 不 过 幸好 HP 
提供 了 与 Berkeley 风格 相当 的 baf, 它 会 产生 类 似 于 我 们 范例 的 那 种 输出 。 要 处 理 这 种 
差异 ， 我 们 建议 在 你 的 站 点 上 的 每 一 处 都 安装 GNU 版 本 ; 该 命令 为 coreutils 包 的 一 部 
分 ， 可 参考 4.1.5 节 的 说 明 。 


10.6.2 du 命令 


df 会 摘要 文件 系统 的 可 用 空间 , 但 它 并 不 会 告诉 你 某 个 特定 的 目录 树 需 要 多 少 空间 , 这 
是 du (disk usage， 磁盘 用 量 ) 的 工作 。du 就 像 af 一 样 : 各 系统 间 所 使 用 的 选项 都 不 
尽 相 同 , 且 其 空间 单位 可 能 也 不 一 样 。 有 两 个 常见 的 重要 选项 实现 : -k (kilobyte 单 位 ) 
与 -s (摘要 )。 这 里 是 我 们 的 网 页 服务 器 系统 的 例子 : 
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$ au /tmp 

12 /tmp/lost+found 
J /tmp/ .font-UNIX 
24 /tmp 


$ du -s /tmp 
24 /tmp 


$ au -8 /var/log /var/spool /var/tmp 
204480 /var/log 

236 /var/spool 

8 /var/tmp 


GNU 的 版 本 提供 -h (human-readable， 人 类 易于 理解 的 ) 选项 : 


$ eu -h -8 /var/log /var/spool /var/tmp 
200M /var/log 

236k /var/spool 

8.0k /var/tmp 


du 不 会 对 同一 个 文件 计算 额外 的 直接 连接 , 且 通 常会 忽略 软 性 连接 。 然而, 有 些 实例 提 
供 选项 可 强制 跟随 软 性 连接 ， 不 过 选项 名 称 各 异 : 请 参考 你 系统 里 的 手册 页 。 











di . 
du [ options ] [ files-or-directories | 
用 途 
显示 一 个 或 多 个 目录 树 内 的 空间 使 用 率 。 
主要 选项 
-kk 
空间 的 显示 , 以 Kilobyte (KB ) 为 单位 , 而 非 (与 系统 相依 的 ) 块 (block) 。 
-5S | 
为 每 个 参数 ， 仅 显示 单行 摘要 。 
合 为 
Gu 会 针对 每 个 文件 或 目录 参数 如 果 无 提供 这 类 参数 则 为 当前 目录 ， 产 
生 一 个 输出 行 ， 其 会 包含 以 整数 表示 的 使 用 率 , 并 接着 文件 或 目录 的 名 称 。 除 
非 给 定 -s 选 项 , 否则 每 个 目录 参数 会 以 递归 方式 被 查找 , 为 每 个 谋 套 目录 产 
生 一 个 报告 行 。 | 
从 车 
du 的 输出 未 被 排序 。 
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du 可 以 解决 的 一 个 常见 问题 是 ; 找 出 是 哪个 用 户 用 掉 最 多 的 系统 空间 ,假定 用 户 的 根 目 
录 全 放 在 /home/users 下 ，root 可 以 这 么 做 ;: 


# du -8s -k /home/users/* | Bort -kinr | less 找 出 大 的 根 目录 树 
这 么 做 可 以 产生 使 用 空间 前 几 名 的 列表 ， 由 最 多 到 最 少 。 在 一 些 大 型 目录 树 下 的 fina 


Girs -size +10000 命 令 , 可 以 迅速 地 找 出 可 能 是 要 压缩 或 删除 的 候选 文件 , 且 du 
的 输出 可 以 识别 出 最 好 搬 到 更 大 空间 的 用 户 目录 树 。 





注意 : 有 些 管理 人 员 会 将 定期 处 理 au 报 告 并 寄 送 警告 邮件 给 使 用 过 多 目录 树 空间 的 用 户 这 些 工 作 
加 以 自动 化 ， 像 我 们 在 第 7 章 例 7-1 所 编写 的 脚本 那样 。 在 我 们 的 经 验 里 ， 这 么 做 会 比 使 
用 文件 系统 配额 (quota) 功能 还 好 ( 见 guora(1) 使 用 手册 )， 因 为 它 避 免 了 指定 特定 数字 
(文件 系统 一 空间 的 限制 ) 给 用 户 , 那些 限额 的 数字 永远 不 会 正确 , 且 它 们 迟早 会 阻碍 用 户 
完成 正常 工作 。 


du 的 运行 没有 什么 魔法 , 它 就 像 其 他 程序 那样 , 深入 查找 文件 系统 , 再 将 每 个 文件 的 使 
空间 求 和 。 因 此 在 大 型 系统 下 执行 ， 可 能 会 有 点 慢 , 且 通 过 严格 的 权限 可 锁 住 对 目录 

树 的 查找 ; 如 果 它 的 输出 包含 Permission denied 的 信息 ， 它 的 报告 则 无 法 充分 计算 

空间 使 用 率 。 通 常 ， 只 有 root 有 足够 的 权限 ， 可 以 在 本 地 系统 的 任何 地 方 使 用 au。 


10.7 比较 文件 

本 节 ， 我 们 将 会 讨论 比较 文件 领域 里 的 四 个 相关 主题 : 

。 ”检查 两 个 文件 是 否 相 同 ， 如 果 不 同 ， 找 出 哪里 不 同 

。 ”应 用 两 个 文件 的 不 同 之 处 ， 使 从 其 中 一 个 回复 另外 一 个 
。 ”使 用 校 验 和 (checksum) 找 出 相同 一 致 的 文件 

。 ”使 用 数字 签名 以 验证 文件 


10.7.1 好 用 工具 cmp 与 diff 


在 文字 处 理 上 , 最 常 出 现 的 问题 应 该 就 是 比较 两 个 或 两 个 以 上 的 文件 , 看 看 它们 的 内 容 
是 否 相同 即便 它们 的 名 称 不 同 。 





如 果 你 手 上 已 经 有 两 个 要 拿 来 比较 的 文件 ， 那么 文件 比较 的 工具 cmp 马上 能 为 你 解答 : 


$ cp /bin/ls /tmp 制作 /bin/1s 的 私 用 副本 
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$ cmp /bin/ls /tmp/18 拿 原 始 文件 与 副本 比较 

没有 任何 输出 ， 表 示 这 两 个 文件 一 致 
‘$ cmp /bin/cp /bin/1s 比较 两 个 不 同 的 文件 
/bin/cp /bin/1ls differ: char 27, line 1 输出 结果 指出 第 一 个 不 同 处 的 位 置 


cmp 发 现 两 个 参数 文件 一 致 时 ， 会 采用 默认 的 方式 。 如 果 你 只 对 它 的 离开 状态 有 兴趣 ， 
可 以 使 用 -s 选项 ， 抑 制 警 告 信 息 ， 


$ cmp -8 /bin/cp /bin/1s 默认 地 比较 两 文件 的 不 同 
$ echo 8$? 显示 离开 码 
1 非 零 ， 表 示 两 个 文件 不 同 


如 果 你 想 知 道 两 个 相似 的 文件 有 何不 同 ， 可 使 用 Giff: 


$ echo Test 1 > test.1 建立 第 一 个 test 文件 
$ echo Test 2 > test.2 建立 第 二 个 test 文件 
$ diff test.[12] 比较 这 两 个 文件 

icl 

< Test 1 

> Test 2 


使 用 aiff 的 惯例 是 : 将 旧 文 件 作 为 第 一 个 参数 。 


不 同 的 行 会 以 前 置 左 角 括号 的 方式 ， 对 应 到 左边 的 (第 一 个 ) 文件 , 而 前 置 右 角 括号 则 
指 的 是 右边 的 (第 二 个 ) 文件 。 最 前 面 的 1c1 为 输入 文件 行 编号 的 简洁 表示 方式 , 指出 
不 同 之 处 以 及 需要 编辑 的 操作 : 在 这 里 ，c 表 示 改 变 (change)。 在 大 一 直 的 全 入 记 ， 你 
还 可 能 发 现 a 是 增加 (add)， 与 a 是 删除 (delete) 之 意 。 


diff 的 输出 是 仔细 设计 过 的 ， 因此 其 他 程序 可 使 用 它 的 输出 数据 。 例 如 版 本 修订 控制 
系统 (revision control system) 就 使 用 Giff 管理 文件 连续 版 本 之 间 的 差异 。 


有 时， 与 Giff 系 出 同门 的 Giff3 也 是 相当 好 用 的 工具 ， 它 的 任务 与 Qiff 稍 有 不 同 : 
diff3 比 较 的 是 三 个 文件 , 例如 基本 版 与 由 两 个 不 同 的 人 所 做 出 来 的 两 个 修改 文件 , 它 
还 会 产生 一 个 ed 命令 的 脚本 ， 让 用 户 将 两 组 修改 文件 合并 到 基本 版 里 。 我 们 在 这 不 多 
解释 ， 有 兴趣 的 读者 可 参考 dijf3(1) 手 册页 ， 以 找到 更 多 的 范例 。 


10.7.2 patch 工具 程序 


patch 工 具 程 序 可 利用 diff 的 输出 , 结合 原始 文件 , 以 重建 另 一 个 文件 。 因 为 相 异 的 
部 分 , 通常 比 原始 文件 小 很 多 ， 软件 开 发 人 员 常 会 通过 email 交 换 相 异 处 的 列表 ， 再 使 
用 patch 应 用 它 。 下 面 的 例子 便 是 要 告诉 你 ,patch 如 何 将 test .1 的 内 容 转换 为 那 
些 匹 配 于 test .2 的 内 容 : 


www.TopSage.com 


314 第 10 章 





$ diff -c test.112] > test.dif 将 相 异 处 的 相关 内 文 ， 存 储 到 test.dif 


$ patch < test.dif 应 用 不 同 之 处 

patching file test.1 

$ cat test.1 , 显示 修补 后 (patched) 的 test .1 文件 
Test 2 


patch 尽 可 能 套用 不 同 之 处 ， 然 后 报告 失败 的 部 分 ， 由 你 自行 手动 处 理 。 


虽然 patch 可 使 用 diff 的 一 般 输 出 , 但 较 通用 的 方式 应 是 使 用 diff 的 -c 选 项 , 以 取 
得 上 下 文 差异 (context difference) 处 。 这 么 做 会 产生 较 详 细 宛 长 的 报告 , 让 pat ch 知 
道 文件 名 , 允许 它 验 证 变更 位 置 , 并 回复 不 匹配 之 处 。 如 果 两 个 文件 自从 差异 处 已 被 记 
录 下 来 之 后 都 未 有 更 改 , 则 上 下 文 差异 功能 是 不 重要 的 , 但 是 在 软件 开发 中 , 时 常会 
其 中 之 一 牵涉 其 中 。 


10.7.3 文件 校 验 和 匹配 


要 是 你 怀疑 可 能 有 许多 文件 具有 相同 的 内 文 ,而 使 用 cmp 或 aiff 进 行 所 有 成 对 的 比较 ， 
导致 所 花费 的 执行 时 间 会 随 着 文件 数目 增加 成 次 方 的 增长 ， 你 马上 就 会 受 不 了 。 


你 可 以 使 用 file checksum (文件 校 验 和 )， 取 得 近似 线性 的 性 能 。 有 很 多 工具 可 用 来 计 
算 文件 与 字符 串 的 校 验 和 ， 包括 sum、cksum, 以 及 checksum ( 注 9) ， 消 息 搞 要 工具 
( 注 10) mqd5 与 md5sum, 安全 性 散 列 (secure-hash) 算法 ( 注 11) 工具 sha、shalsum、 
sha256 以 及 sha384。 可 惜 的 是 : sum 的 实例 在 各 平台 间 都 不 相同 , 使 得 它们 的 输出 无 
法 跨越 不 同 的 UNIX 版 本 进行 文件 校 验 和 的 比较 。 cksum 在 OSF/1 系统 上 的 原始 版 本 所 
产生 的 校 验 和 不 同 于 其 他 系统 下 的 版 本 。 
旧式 的 sum 命令 除外 , 这 些 程序 里 只 有 少数 几 个 可 以 在 系统 之 外 找到 , 不 过 它们 都 很 容 
易 构 建 与 安装 。 它 们 的 输出 格式 互 异 ， 但 传统 上 应 是 这 样 : 

$ md5sum /bin/1? 

696a4fa5a98b81b066422a39204ffea4 . /bin/1ln 


cd6761364e3350d010c834ce11464779 /bin/lp 
351lf5eab0baa6eddae391f84d0a6c192 /bin/ls 


注 9: 可 到 htip:/www.math.utah.edu/pub/checksum/, 


注 10:  R. Rivest, RFC 1321:《The MD5 Message-Digest Algorithm》， 可 参考 fip://ftp.internic. 
net/rfc/ 二 713271.1x1。md5sum 是 GNU coreutils 包 的 一 部 分 。 


注 11l: NIST, FIPS PUB 180-1: 《Secure Hash Standard, April 1995》， 可 参考 htip://www. 
cerberussystems.com/INFOSEC/stds/fip180-1.htm 以 及 GNU coreutils 包 里 的 实例 。 
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长 的 十 六 进 制 签名 字符 串 只 不 过 是 一 个 具有 许多 位 数 的 整数 , 它 是 由 文件 的 所 有 字 节 计 
算得 来 ， 在 这 样 的 计算 方式 下 ， 几 平 不 可 能 有 任何 其 他 字 节 字符 串 流 能 产生 相同 的 值 。 
使 用 好 的 算法 , 较 长 的 签名 一 般 来 说 就 意味 着 较 可 能 具有 唯一 性 。md5sum 输 出 32 个 十 
六 进 制 数字 ， 等 同 于 128 个 位 〈 注 12) 。 因 此 两 个 不 同 的 文件 ， 要 具有 相同 签名 的 可 能 
性 ， 大 约 为 24= 1.84 x 10” 分 之 一 ， 几 乎 小 到 微不足道 。 近 期 的 密码 学 研究 展现 了 建 
立 一 对 具有 相同 MD5 校 验 和 的 文件 的 可 能 。 不 过 ， 产 生 一 个 与 已 存在 文件 内 容 类 似 但 
又 不 一 致 的 文件 ， 又 要 二 者 都 具 相 同 校 验 和 ， 仍 旧 是 一 件 困难 的 事 。 


为 了 在 一 组 签名 中 找到 相 匹 配 的 , 使 用 它们 作为 签名 计数 表格 里 的 索引 , 并 且 仅 报告 计 
数 结果 超过 1 的 那些 情况 ，awk 正 是 可 以 帮 我 们 完成 它 的 工具 ， 程 序 见 例 10-2。 


例 10-2: 寻找 匹配 的 文件 内 容 

#! /bin/sh - 

# 根据 它们 的 MD5 校 验 和 ， 

# 显示 在 某 种 程度 上 内 容 几乎 一 致 的 文件 名 。 
# 

# 语法 : 


# show-identical-files files 


IFS=" 


PATH=/usr/local/bin: /usr/bin: /bin 
export PATH 


md5sum "$@" /dev/null 2> /dev/null | 
awk '{ 
count [$1]++ 
if {count[$1] == 1) first[$1] = $0 
if {count[$1] == 2) print first[$1] 
it {count[$1] > 1} print $0 
}' 1] - 
sort | . 
awk '{ 


ff 


if {last !1= $1) print *" 
last = $1 
print 


} 


下 面 是 该 程序 在 GNU/Linux 系统 下 的 输出 结果 : 


$ show-identical-files /bin/* 


注 12: ”如 果 你 从 时 个 项 目 中 选 一 个 ， 则 有 IN 机 会 被 选中 。 如 果 选 M 个 项 目 ， 则 有 M(M-1)/2 
可 能 的 配对 ,找到 一 个 相同 配对 的 机 会 是 (M(M-1)/2)/N。 针对 M 而 宫 , 该 值 到 达 可 能 性 
172 约 是 NN 的 平方 根 。 这 被 称 为 生日 悖 论 (birthday paradox); 你 可 以 在 有 关 密 码 学 、 数 
字 理 论 、 概 率 论 书籍 及 相关 网 站 中 找到 有 用 的 信息 ， 包 括 若干 个 经 过 验证 的 例子 。 
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2df30875121b92767259e89282dadq3002 /bin/ed . 
2df30875121b92767259e89282dd3002 /bin/red 


43252d689938f4d6a513a2f571786aal /bin/awk 
43252d689938f4d6a513a2f571786aal /bin/gawk 
43252d689938f4d6a513a2f571786aal /bin/gawk-3.1.0 


由 本 例 可 推论 ed 与 red 在 此 系统 里 为 相同 一 致 的 程序 ， 尽管 根据 它们 被 引用 的 名 称 ， 
可 能 仍 会 产生 不 同 的 行为 模式 。 


内 容 一 致 的 文件 多 半 是 会 彼此 连接 ， 特 别 是 当 这 些 文件 出 现在 系统 目录 下 时 。show- 
iaentical-files 在 应 用 到 用 户 目录 下 时 ， 可 以 提供 更 多 有 用 的 信息 ， 因 为 用 户 目录 
下 的 文件 不 大 可 能 是 连接 ， 比 较 可 能 是 用 户 无 意 中 做 的 副本 。 


10.7.4 数字 签名 验证 


各 种 的 校 验 和 工具 程序 都 提供 单一 数字 , 这 是 文件 的 特性 , 且 几 乎 不 可 能 与 具有 不 同 内 
容 的 一 个 文件 的 校 验 和 相同 。 软 件 发 布 时 , 通常 会 包含 分 发 文件 的 校 验 和 , 这 可 以 让 你 
方便 得 知 所 下 载 的 文件 是 否 与 原始 文件 匹配 。 不 过 ， 单独 的 校 验 和 不 能 提供 验证 
(verification) 工作 : 如 果 校 验 和 被 记录 在 你 下 载 软件 里 的 另 一 个 文件 中 , 则 攻击 者 可 以 
恶意 地 修改 软件 ， 然 后 只 要 相应 地 修订 校 验 和 即 可 。 


这 个 问题 的 解决 方案 是 公 钥 加 密 (public-key cryptography)。 在 这 种 机 制 下 , 数据 的 安 
全 保障 来 自 两 个 相关 密 钥 的 存在 : 一 个 私密 密 钥 一 一 只 有 所 有 者 知悉 ， 以 及 一 个 公开 
密 钥 一 一 任何 人 都 可 得 知 。 两 个 密 钥 的 其 中 一 个 用 以 加 密 ， 另 一 个 则 用 于 解密 。 公 开 
密 钥 加 密 的 安全 性 , 依赖 已 知 的 公开 密 钥 及 可 被 该 密 钥 解密 的 文本 , 以 提供 一 条 没有 实 
际 用 途 的 信息 但 可 被 用 来 恢复 私密 密 钥 。 这 一 发 明 最 大 的 突破 是 解决 了 一 直 以 来 密码 学 
上 极 严重 的 问题 : 在 需要 彼此 沟通 的 对 象 之 间 ， 如 何 安 全 地 交换 加 密 密 钥 。 


私密 密 钥 与 公开 密 钥 是 如 何 使 用 和 运行 的 呢 ? 假设 Alice 想 对 一 个 公开 文件 签名 ， 她 可 
以 使 用 她 的 私密 密 钥 (Private key) 为 文件 加 密 。 之 后 Bob 再 使 用 Alice 的 公开 密 钥 
(public key) 将 签名 后 的 文件 解密 ,这么 一 来 即 可 确信 该 文件 为 Alice 所 签名 ,而 Alice 
也 无 须 泄露 其 私密 密 钥 ， 就 能 让 文件 得 到 信任 。 


如 果 Alice 想 传送 一 份 只 有 Bob 能 读 的 信 给 他 ， 她 应 以 Bob 的 公开 密 钥 为 信件 加 密 ， 之 
后 Bob 再 使 用 他 的 私密 密 钥 将 信件 解密 。 只 要 Bob 妥善 保管 其 私密 密 钥 ，Alice 便 可 确 
信 只 有 Bob 能 读 取 她 的 信件 。 


对 整个 信息 加 密 其 实 是 没有 必要 的 : 相对 的 ， 如 果 只 有 文件 的 校 验 和 加 密 ， 它 就 等 于 有 
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数字 签名 (digital signature) 了 。 如 果 信 息 本 身 是 公开 的 ， 这 种 方法 便 相 当 有 用 ， 不 过 
还 需要 有 方法 验证 它 的 真实 性 。 


在 GNU Privacy Guard (GnuPG， 注 13) 与 Pretty Good Privacy (PGP， 注 14) 里 有 
相当 多 工具 程序 提供 公开 密 钥 加 密 机 制 。 要 完整 说 明 这 些 包 需要 整 本 书 才 够 , 可 到 参考 
书目 中 的 “安全 性 与 密码 学 ”部 分 寻找 。 然 而 , 会 使 用 它们 就 只 为 一 个 重要 任务 : 数字 
签名 (digital signature) 的 验证 。 我 们 仅 在 此 说 明 GnuPG， 物力 它 还 在 持续 发 展 中 ， 且 
构建 较 PGP 简单 ， 也 适用 于 更 多 平台 。 


由 于 计算 机 越 来 越 容易 遭受 攻击 , 许多 的 软件 存档 文件 (archive) 现在 都 并 入 文件 校 验 

和 信息 的 数字 签名 , 以 及 来 自 签名 者 的 私密 密 钥 。 这 也 就 是 为 什么 了 解 验 证 这 样 的 签名 

是 很 重要 的 原因 ， 如果 有 签名 文件 ,你 应 该 都 要 记得 验证 它 。 使 用 GnuPG 的 方式 如 下 : 
$ 18 -1 coreutils-5.0.tar* 显示 分 发 文件 


-IW-rIW-r-- 1 jones devel 6020616 Apr 2 2003 coreutils-5.0.tar.gz 
-rw-rw-r-- 1 jones devel 65 Apr 2 2003 coreutils-5.0.tar.gz.sig 


$ gpg coreutils-5.0.tar.gz.aig 尝试 验证 此 签名 
gpg: Signature made Wed Apr 2 14:26:58 2003 MST using DSA key ID D333CBRA1 
gpg: Can't check signature: public key not found 


签名 验证 失败 , 是 因为 我 们 还 未 将 签名 者 的 公开 密 钥 加 入 gpg 密 钥 环 。 如果 我 们 知道 谁 
对 文件 执行 签名 ,我 们 就 可 以 在 签名 者 的 个 人 网 站 上 找到 公开 密 钥 , 或 是 通过 email 向 
签名 者 要 求 一 份 密 钥 。 然而 , 我 们 在 这 里 拥有 的 就 只 有 密 钥 ID 的 信息 。 幸好 使 用 数字 签 
名 的 人 多 半 会 将 它们 的 公开 密 钥 注册 到 第 三 方 (thrid-party) 的 公开 密 钥 服务 器 (public- 
key server), 且 该 注册 会 自动 地 提供 给 其 他 的 密 钥 服务 器 共享 。 几 个 主要 的 站 点 列 于 表 
10-2， 你 也 可 以 自 查找 引擎 找到 更 多 数据 。 你 可 以 复制 一 份 公开 密 钥 ， 以 提升 安全 性 : 
如 果 密 钥 服务 器 不 能 用 或 毁损 ， 便 能 轻松 切换 成 另 一 个 。 


表 10-2: 主要 的 公开 密 钥 服务 器 





间 家 0 : 
比利时 http:/www.keyserver.net/en/ 

德国 htip:/math-www.uni-paderborn.de/pgp/ 

德国 http://pgp.zdv.uni-mainz. de/keyserver/pks-commands.htiml#extract 
英国 http:/www.cl.cam.ac.uk/PGP/pks-commands.html#extract 

美国 http://pgp.mit.edu/ 











注 13: fip://fip.gnupg.org/gcrypi/gnupg/ 与 http:/www.gnupg.org/, 
注 14: http://web.mit.edu/network/pgp.html, 
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在 网 页 浏览 器 上 造访 这 些 密 钥 服 务 器 , 在 查找 栏 里 输入 密 钥 ID 0xD333CBA1 (前 面 的 0x 
是 强制 性 的 )， 并 得 到 这 样 的 报告 : 


Public Key Server -- Index ''0xD333CBA1 '! 


Type bits /keyID Date User ID 
pub 1024D/D333CBA1 1999/09/26 Jim Meyering <meyering@ascend.com> 


按照 密 钥 ID 上 的 链接 (例子 的 粗 体 字 部 分 ) 可 连 到 下 面 网 页 : 


Public Key Server -- Get ! :0xD333CBRA1 '! 


Version: PGP Key Server 0.9.6 


mQGiBDftyYoRBACVvICTtS5AWe7kdbPRtJ37IZ+EDSTtBA/IDISfqUPO+HML/J9JSfkV 
QHbdQR5djS5mrU6BYSYOY7LAKOS6l1H3AgvsZ/NhkDBraBPgnMkpDgFb7z4keCITebb 


最 后 ， 将 密 钥 内 容 存储 到 临时 性 文件 ， 例 如 temp.key， 并 加 到 你 的 密 钥 环 中 : 


$ gpg --import temp .key 将 公开 密 钥 ， 加 到 你 的 密 钥 环 
gpg: key D333CBA1: public key "Jim Meyering <jimemeyering .net>" imported 
gpg: Total number processed: 1 


gpg: imported: 1 
现在 ， 就 可 以 成 功 地 验证 签名 了 : 
S gpg coreutils-5.0.tar.gz.8ig 验证 数字 签名 


gpg: Signature made Wed Apr 2 14:26:58 2003 MST using DSA key ID D333CBAL 
gpg: Good signature from "Jim Meyering <jim@meyering.net>’ 


gpg: aka "Jim Meyering <meyering@na~net .ornl.gov>" 
gpg: aka "Jim Meyering <meyering@pobox,.com>" 
gpg: aka "Jim Meyering <meyering@ascend.com>" 
gpg: aka "Jim Meyering <meyering@lucent com>" 


gpg: checking the trustdb 

gpg: checking at depth 0 signed=0 ot{-/gq/n/m/f/u)=0/0/0/0/0/1 

gpg: next trustdb check due at ?2?2?2?-?2-?3? 

gpg: WARNING: This key is not certified with a trusted signature! 

gpg: There is no indication that the signature belongs to the owner. 
Primary key fingerprint: D70D 9D25 AF38 37A5 909A 4683 FDD2 DEAC D333 CBAL 


成 功 验证 中 的 警告 信息 简单 扼要 地 告诉 你 : 你 仍 未 认证 签名 者 密 钥 确 实 是 属于 他 的 。 除 
非 你 私下 认识 签名 者 ,并 有 很 好 的 理由 相信 这 个 密 钥 是 有 效 的 ,否则 你 不 应 认证 此 密 钥 。 


攻击 者 可 以 修改 再 重新 包装 分 发 包 , 但 不 知道 签名 者 的 秘密) 私密 密 钥 , 数字 签名 不 
能 被 重新 产生 ， 且 gpg 会 发 现 此 攻击 : 


$ 18 -1 coreutils-5.0.tar.gz 列 出 遭 恶 意 修改 的 存档 文件 ， 
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-rW-rw-r-- 1 jones devel 6074205 Apr 2 2003 coreutils-5.0.tar.gz 


$ gpg coreutils-5.0.tar.gz.sig 试 着 验证 数字 签名 
gpg: Signature made Wed Apr 2 14:26:58 2003 MST using DSA key ID D333CBR1 
gpg: BAD signature from "Jim Meyering <jim@meyering.net>" 


数字 签名 确保 你 站 点 里 的 文件 匹配 于 远 端 站 点 中 已 准备 妥 且 完成 签名 的 那个 文件 ,当然 ， 
当 签 名 被 验证 时 , 在 签名 者 系统 上 软件 包装 成 包 分 发 之 前 , 就 已 经 遭受 到 未 侦 测 出 的 攻 
击 是 无 法 被 显现 出 来 的 。 安 全 性 永远 不 可 能 是 百 分 百 完美 。 


你 不 一 定 要 使 用 网 页 浏览 器 取得 公开 密 钥 : GNU 的 wget 工具 程序 ( 注 15) 可 以 帮 你 完 
成 这 件 事 ， 前 提 是 你 必须 先 找 出 特定 密 钥 服 务 器 所 预期 的 URL 语法 。 例 10-3 的 脚本 可 
以 让 密 钥 的 取得 更 容易 ， 还 会 提醒 你 如 何 将 公开 密 钥 加 入 到 你 的 密 钥 环 中 。 


例 10-3: 自动 化 公开 密 钥 的 取得 


#! /bin/sh - 

# 自 密 钥 服务 器 取得 一 个 或 多 个 PGP/GPG 密 钥 

# 

# 语法 : 

# getpubkey key-ID-1 key-ID-2 ... 
IFS="' 


PATH=/uUsr/local/bin:/usr/bin:/bin 
export PATH 


for £4n"9a" 

do 
g=0x‘echo $f | sed -e s'/^0x//'" 确保 字 首 为 0x 
tmpfile=/tmp/pgp-$g.tmp.$s$ 
wget -q -0 - "http://pgp.mit.edu:11371/pks/lookup?op=get&search=$g" > Stmpfile 
ls -1 $tmpfile 


echo "Try: pgp -ka $tmpfile" 
echo " pgpgpg -ka $tmpfile" 
echo " > rm -f $tmpfile" 
done 
使 用 范例 如 下 : 
$ getpubkey D333CBA1 取得 密 钥 ID 为 D333CBA1 的 公开 密 钥 
-rw-rw-r-- 1 jones jones 4567 Apr 6 07:26 /tmp/pgp-0xD333CBA1 .tmp .21649 
Try: pgp -ka /tmp/pgp-0xD333CBA1 .tmp.21643 


pgpgpg -ka /tmp/pgp-0xD333CBA1 .tmp .21643 
rm -f /tmp/pgp-0xD333CBA1 .tmp .21643 


注 15: 可 在 fip://ftp.gnu.org/gnu/wget/| 取得 。 
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一 些 密 钥 可 同时 用 于 PGP 与 GnuPG， 但 有 很 多 是 不 可 以 的 ， 所 以 提醒 会 包含 两 者 。 因 
为 gpg 与 pgp 的 命令 行 选项 各 异 ， 而 pgp 先 开 发 ，gpg 则 来 自 一 个 包装 程序 pgpgpg， 
其 采用 与 pgp 相同 的 选项 , 但 却 是 调用 gpg 执行 任务 。 在 此 pgpgpg -ka 意 同 于 gpg 


-import, 


getpupkey 可 以 将 取得 的 密 钥 加 入 到 你 的 GnuPG 与 /或 PGP 密 钥 环 中 ， 只 要 花 点 剪 切 / 
粘贴 的 气力 。gpg 则 提供 一 次 到 位 的 方式 ， 但 它 只 更 新 你 的 GnuPG 密 钥 环 

$ gpg ~-keyserver pgp.mit.edu -~-9earch-~keYys 0xD333CBRAL 

gpg: searching for "OxD333CBAl" from HKP server pgp.mit.edu 

Keys 1-6 of 6 for "OxD333CBAl" 


{1) Jim Meyering <meyering@ascend.com> 
1024 bit DSA key D333CBAl1, created 1999-09-26 


Enter number(s)}, N})ext, or Q)uit > 1 

gpg: key D333CBA1: public key *Jim Meyering <jim@meyering.net>”" mpont ed 
gpg: Total number processed: 1 

gpg: imported: 1 


--keyserver 选 项 只 有 第 一 次 才 需 要 ,不 过 你 之 后 还 是 可 以 用 它 来 指定 不 同 的 服务 器 。 
除了 密 钥 ID 以 外 ，--search-keys 选 项 还 可 以 接受 电子 邮件 地 址 、 用 户 名 称 或 个 人 姓 
名 。 


10.8 小 结 


本 章 我 们 介绍 的 是 如 何 使 用 ls 与 stat 列 出 文件 与 文件 meta 数 据 ,还 有 如 何 使 用 touch 
设置 文件 时 间 惟 .ouch 可 显示 有 关 日 期 时 间 相 关 的 信息 以 及 在 许多 现行 系统 上 的 范围 
限制 。 


我 们 说 明了 如 何以 Shell 的 进程 ID 变量 $$ ， 搭 配 mktemp 工具 并 自己 动手 取出 随机 数 
据 流 样本 ， 建 立 唯 一 的 临时 性 文件 名 称 。 计 算 机 的 世界 可 以 说 是 一 个 充满 敌意 的 环境 ， 
所 以 可 通过 此 方式 给 予 临 时 性 文件 具有 唯一 性 与 唯一 访问 性 ,让 你 的 程序 可 以 免 于 遭受 
攻击 。 


locate 与 slocate 命 令 可 用 于 定期 更 新 的 数据 库 (是 经 由 完整 地 扫描 文件 系统 所 构建 
的 ) 中 , 快速 地 查寻 文件 名 称 。 当 你 知道 全 部 或 部 分 的 文件 名 , 且 只 想 知 道 它 在 文件 系 
统 里 的 什么 位 置 ,那么 使 用 locate 就 是 最 好 的 方式 ,除非 文件 是 在 查找 数据 库 构 建 完成 
之 后 新 产生 的 。 


type 命 令 是 找 出 有 关 Shell 命令 相关 信息 的 好 方法 ,我们 在 第 8 章 提供 的 Pathfind 脚 
本 ， 则 是 提供 较 一 般 性 的 解决 方案 ， 便 于 找 出 特定 目录 路 径 下 的 文件 。 


www.TopSage.com 


文件 处 理 321 





我 们 花 了 很 多 篇 幅 探 讨 功能 强大 的 finqa 命令 ， 它 采用 暴力 破解 遍历 文件 系统 ,寻找 与 
用 户 指定 条 件 匹配 的 文件 。 尽管 如 此 , 我 们 仍 留 下 它 许多 未 曾 提 及 的 性 能 ， 待 你 自行 从 
使 用 手册 或 其 他 更 好 的 GNU find 文 件 里 深入 了 解 它 。 

我 们 简短 说 明了 xargs 的 处 理 方式 , 这 是 另 一 个 用 以 处 理 文件 列表 的 命令 , 通常 出 现在 
上 游 为 find 的 管道 里 。 它 除了 能 克服 很 多 系统 上 命令 行 长度 的 限制 , 还 能 让 你 在 管道 
里 插入 额外 的 过 滤器 ， 以 便 进一步 处 理 文件 。 


af 与 du 命令 会 报告 文件 系统 与 目录 树 里 的 空间 使 用 状态 。 把 它们 学 好 , 因为 你 会 经 常 
用 到 它们 。 


最 后 ， 我 们 描述 比较 文件 的 命令 、 应 用 补丁 、 产 生 文 件 校 验 和 以 及 验证 数字 签名 。 
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扩展 实例 ， 合 并 用 户 数据 库 


到 现在 为 止 ， 我 们 已 经 一 路 学 习 、 探 索 ， 也 看 过 许多 Shell 脚本 了 。 本 章 的 目标 是 将 前 
面 所 学 的 ， 结 合 Shell 程序 编写 ， 挑 战 中 等 难度 的 任务 。 


11.1 问题 描述 
UNIX 的 密码 文件 /etc/passwd 已 经 在 本 书 出 现 过 很 多 次 , 系统 管理 者 的 工作 多 半 也 都 
是 围绕 着 密码 文件 (还 有 相对 的 组 文件 /etc/group) 的 操作 。 格 式 如 下 所 示 ( 注 1): 


tolstoy:x:2076:10:Leo Tolstoy:/home/tolstoy:/bin/bash 


有 7 个 字段 : 用 户 名 称 (username)、 加 密 密 码 .用户 ID 编号 (UID) .组 ID 编号 (GID)、 
全 名 、 根 目录 以 及 登录 Shell。 字 段 为 空 不 是 个 好 做 法 : 特别 是 第 2 个 字段 ， 如 果 为 空 ， 
用 户 无 须 密码 即 可 登录 , 且 任 何 可 以 访问 系统 或 其 终端 的 人 都 可 以 该 用 户 身份 登录 。 如 
果 第 7 个 字段 (Shell) 为 空 ， 则 UNIX 默认 为 Bourne Shell 一 一 /bin/sh。 


如 我 们 在 附录 B 里 所 讨论 到 的 : 用 户 与 组 ID 编号, 都 为 UNIX 在 访问 文件 时 用 来 检查 权 
限 所 用 。 如 果 两 个 用 户 具有 不 同 的 名 称 却 拥 有 相同 的 UID 编号, 则 就 UNIX 来 说 ,它们 
是 相同 的 (identical)。 这 种 情况 很 少见 , 不 过 两 个 账号 拥有 相同 UID 编号 是 不 对 的 。 特 
别 是 NFS 会 要 求 一 致 的 UID 空间 ， 用 户 编号 2076 在 所 有 系统 中 通过 NFS 彼 此 访问 ,最 
好 是 相同 的 用 户 (tolstoy)， 否 则 有 可 能 出 现 相当 严重 的 安全 性 问题 。 


现在 ， 随 我 们 回 到 多 年 前 (大 约 1986 年 ) 吧 ， 那 时 Sun 的 NFS 正 越 来 越 受 欢迎 ， 还 能 
应 用 在 非 Sun 的 系统 上 。 同 时 ， 我 们 之 中 有 一 个 系统 管理 员 ， 手 下 有 两 台 为 4.2 BSD 


注 1: BSD 系统 还 使 用 /etc/master.passwd 文 件 ， 它 具有 三 个 额外 的 字段 : 用 户 的 登录 类 
别 、 密 码 变 更 时 间 以 及 账号 过 期 时 间 。 这 些 字 段 的 位 置 就 在 GID 字段 与 全 名 字段 之 间 。 
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UNIX 的 计算 机 系统 。 这 两 个 系统 以 TCP/IP 相互 通信 ， 但 未 使 用 NFS。 然 而 ， 新 的 OS 
厂商 已 规划 要 让 4.3 BSD + NFS 在 这 些 系统 上 可 使 用 。 有 许多 用 户 在 这 两 台 系统 上 都 
“有 账号 ， 基本 上 ,， 用户 名 称 都 一 样 ， 但 UID 却 不 同 ! 这 些 系 统 很 快 就 要 通过 NFS 共享 文 
件 系 统 ， 它们 的 UID 空间 要 被 合并 是 势 在 必 行 的 。 我 们 的 任务 就 是 编写 一 系列 的 脚本 ， 
功能 是 ， 


。 ”将 两 个 系统 里 的 /etc/passwd 文 件 合并 。 这 是 为 了 确保 来 自 这 两 台 系 统 的 所 有 用 
户 都 具有 独一无二 的 UID 编号 。 


。 ”针对 已 存在 的 UID、 但 被 应 用 在 不 同 的 用 户 身上 的 情况 ， 则 考 基 所 有 文件 的 所 有 机 
变更 为 正确 用 户 。 


这 就 是 本 章 的 任务 ,我们 从 零 开始 〈 原 始 的 脚本 太 长 ， 它 只 是 偶尔 的 兴趣 ， 并 且 像 是 在 
做 学 术 研 究 ) 。 这 里 的 问题 不 单单 是 学 术 性 的 , 试想 : 公司 里 有 两 个 原本 是 分 开 的 部 门 ， 
现在 是 合并 的 时 候 , 用 户 可 能 在 多 个 部 门 的 系统 里 都 有 账号 。 如 果 你 是 系统 管理 者 , 就 
有 可 能 面临 这 样 的 任务 。 我 们 觉得 解决 这 个 问题 应 该 是 相当 有 趣 的 。 


11.2 密码 文件 \ 
我 们 就 叫 这 两 个 假定 的 UNIX 系统 为 ul 与 u2 吧 ! 例 11-1 呈现 的 是 ul 的 /etc/passwd; 


例 11-1: ul 的 /etc/passwd 文件 


root:x:0:0:root:/root:/bin/bash 

bin:x:1:1:bin: /pin:/sbin/nologin 

daemon:x:2:2:daemon: /sbin:/sbin/nologin 
adm:x:3:4:adm: /var/adm: /sbin/nologin 
tolstoy:x:2076:10:Leo Tolstoy:/home/tolstoy:/bin/bash . 
camus :X:112:10:Albert Camus:/home/camus:/bin/pash 
jhancock:x:200:10:John Hancock:/home/jhancock: /bin/pash 
ben:x:201:10:Ben Franklin:/home/ben:/bin/bash 
abe:x:105:10:Honest Abe Lincoln:/home/abe:/bin/bash 
dorothy:x:110:10:Dorothy Gale:/home/dorothy:/bin/bash 


而 例 11-2 为 u2 的 /etc/passwd: 


例 11-2: U2 的 /etc/passwd 文件 


root:x:0:0:root:/root:/bin/bash 

bin:x:1:1:bin: /bin:/sbin/nologin 
daemon:x:2:2:daemon:/sbin:/sbin/nologin 
adm:x:3:4:adm: /var/adm: /sbin/nologin 
george:x:1100:10:George Washington: /home/george:/bin/bash 
betsy:x:1110:10:Betsy Ross:/home/betsy:/bin/bash 
jhancock:x:300:10:John Hancock:/home/jhancock: /bin/bash 
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ben:x:301:10:Ben Franklin: /home/ben: /bin/bash 
tj:x:105:10:Thomas Jefferson:/home/tj:/bin/bash 
toto:x:110:10:Toto Gale:/home/toto:/bin/bash 


如 果 你 仔细 审视 这 些 文件 ， 就 会 发 现 我 们 程序 所 必须 处 理 的 可 能 情况 很 多 ， 

。 ”用 户 在 两 个 系统 上 都 拥有 相同 的 用 户 名 称 (username) 与 UID。 这 多 半 都 是 管理 性 
账号 ， 例 如 root 和 bin。 

。 ”用 户 的 username 与 UID 只 有 一 台 系统 里 有 ， 另 一 台 没 有 。 这 种 情况 在 合并 时 ,不 
会 有 问题 。 | 

。 “用 户 在 两 台 系统 上 拥有 相同 的 username， 但 UID 不 同 。 

。 用 户 在 两 台 系 统 上 拥有 相同 的 UID, 但 username 不 同 。 


ma 

11.3 合并 密码 文件 

第 一 步 就 是 先 建立 合并 的 /etc/passwa 文 件 。 这 和 句 话 包含 几 个 子 步 又， 

1. 直接 地 物理 合并 文件 ， 将 重复 的 username 聚 在 一 起 ， 产 生 的 结果 将 成 为 下 个 步 又 
的 输入 。 

2. 将 合并 文件 分 割 为 三 份 ， 供 而 后 处 理 ， 


。 具 相 同 username 与 UID 的 用 户 放 进 uniquel 文 件 。 未 重复 的 用 户 username 也 
放 入 此 文件 。 


。 具 相 同 username， 但 不 同 UID 的 用 户 ， 放 入 第 二 个 文件 : Gupusers。 
。 具 相 同 UID 但 不 同 username 的 用 户 放 入 第 三 个 文件 : dupids。 


3. ”建立 已 使 用 中 具 唯 一 性 的 所 有 UID 编 号 的 列表 。 这 是 为 了 日 后 出 现 冲 突 而 我 们 必须 
变更 UID 时 (例如 ， 用 户 jhancock 与 ben) ， 可 用 来 寻找 新 的 、 未 使 用 的 UID 编 


写 。 


4. 编写 另 一 个 程序 , 搭配 使 用 中 UID 编号 的 列表 ,以便 我 们 寻找 新 的 、 未 使 用 的 UID 
编号 。 


5. ”建立 用 以 产生 最 后 /etc/passwd 记 录 的 三 项 组 合 (username 、 旧 的 UID .新 的 UID ) 
列表 。 还 有 最 重要 的 : 产生 命令 ， 以 变更 文件 系统 中 文件 的 所 有 权 。 


与 此 同时 ， 针 对 原来 就 拥有 数 个 UID 的 用 户 以 及 同一 UID 拥有 多 个 用 户 ， 建 立 最 
后 的 密码 文件 项 目 。 


6. 建立 最 终 密 码 文件 。 
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7. 建立 变更 文件 所 有 权 的 命令 列表 , 并 执行 它 。 这 部 分 必须 谨慎 处 理 , 有 很 多 的 地 方 
必须 小 心 规划 。 


另外 ， 在 这 里 提供 的 所 有 程序 代码 ， 前 提 假 设 都 是 在 username 与 UID 不 会 重复 被 使 用 
超过 两 次 之 下 运行 的 。 实 际 上 这 不 应 该 是 个 问题 ， 但 也 值得 你 深思 ， 将 来 有 一 天 ， 你 可 
能 会 遇 到 比 这 更 复杂 的 情况 。 


11.3.1 根据 管理 性 切 分 用 户 


合并 密码 文件 不 难 ， 两 个 文件 名 分 别 为 ul1.passwd 与 u2.passwd， 我 们 以 sort 命令 
完成 这 件 事 ， 再 搭配 Eee 存储 文件 ， 并 同时 将 其 打印 到 标准 输出 以 便 能 够 看 到 ; 


$ Sort ul.passwd u2.passwd | tee mergel 
abe:x:105:10:Honest Abe Lincoln:/home/abe:/bin/bash 
adm:X:3:4:adm; /var/adm: /sbin/nologin 
adm:x:3:4:adm: /var/adm: /sbin/nologin 

ben:x:201:10:Ben Franklin:;/home/ben:/bin/bash 
ben:x:301:10:Ben Franklin:/home/ben:/bin/bash 
betsy:x:1110:10:Betsy Ross: /home/betsy: /bin/bash 
bin:x:1:1:bin:/bin:/sbin/nologin 
bin:x:1:1:bin:/bin:/sbin/Vnologin 

camus:x:112:10:Albert Camus:/home/camus:/bin/bash 
daemon:x:2:2:daemon:/sbin:/sbin/noloyin 
daemon:x:2:2:daemon:/sbin:/sbin/nologin 
dorothy:x:110:10:Dorothy Gale:/home/dorothy:/bin/bash 
george:x:1100:10:;George Washington:/home/george: /bin/bash 
jhancock:x:200:10:John Hancock: /home/ihancock:/bin/bash 
jhancock:x:300:10:John Hancock:/home/jhancock: /bin/bash 
root:x:0:0:root:/root:/bin/bash | 
root:x:0:0:root:/root:/bin/bash 

tj :x:105:10:Thomas Jefferson:/home/tj:/bin/bash 
tolstoy:x:2076:10:Leo Tolstoy:/home/tolstoy:/bin/bash 
toto:x:110:10:Toto Gale:/home/toto:/bin/bash 


例 11-3 呈 现 的 是 splitout .awk, 该 脚本 的 功能 是 将 合并 后 的 文件 切 分 为 三 个 新 文件 
和 名， 分别 为 dupusers、dupids 以 及 uniquel。 


例 11-3: splitout.awk 程序 

#! /bin/awk - 王 

大。 汪 L $2 $3 $4 $5 $6 $7 

# user:passwd:uid:gid:long name:homedir:Shell 
BEGIN { FS = "*:" } 


# name[] --- 以 username 为 索引 
# uid[] --- 以 uid 为 索引 


# 如 果 出 现 重 复 ， 决 定 其 配置 


www.TopSage.com 


326 








ie 


if ($3 in uida) 


; ”# 名 称 与 uid 2 人 


else { 


} 


print namel$1] | > EE 
print $0 > iaupusersa 
delete name[$11 


# 删除 名 称 相间 、uiqd 不 同 的 已 存储 项 目 


remove_uid by_name ($1) 


) else if ($3 in uid) { 


# 知道 $1 并 不 在 名 称 name 里 ， 所 以 存储 重复 的 ID 记录 


print. uigd[$3] > "Qupids". 
print SO > "dupids" 
delete uid[$3] 


# 删除 具有 相同 uid、 不 同名 称 的 已 存储 项 目 


remove_name_by_uid{(s$3) 


} else 


name{$1] = uid[l$3] = $0 # 第 一 次 看 到 这 条 记录 


} 


END { 


for {i in name) 
print name[i] > "uniquel" 


close{"uniquel") 
close("dupusers’*") - 
close{"dupids’*) 


} 


function remove_ uid by_name{(n, i, f) 


{ 


for {i in uia) { 
split (uid[i], f, ":") 


if {f[I1]} == D) { 
delete uid[il 
break ， ~ 
} 
} 
} 
function remove_name_by_uidt{igd, i, f£) 
{ 
for {i in name) { 
split (name[li], f, ":") 
if {f[I3] == id) { 
delete name[i] 
break 
} 
} 
} 
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人 地 是 将 每 一 输入 和 的 副本 保存 在 两 个 数组 里 ， 第 一 个 数组 以 username 为 索 
、 第 二 个 则 以 UID 编号 为 索引 。 第 一 次 看 到 一 条 记录 时 ，username 与 UID 编号 都 不 
所 以 此 行 的 副本 会 存储 在 这 两 者 里 。 


当 看 到 完全 重复 (username 与 UID 是 相同 一 致 ) 的 记录 时 , 不 作 任何 事 ， 因 为 我 们 已 经 
有 这 个 信息 了 。 如 果 username 已 看 到 过 而 UID 是 新 的 , 则 两 条 记录 都 会 写 进 Qupusers 
文件 里 , 且 uid 数 组 里 的 第 一 条 记录 副本 会 被 删除 ,因为 我 们 不 再 需要 它 了 。 类 似 的 逻 
辑 也 应 用 在 UID 之 前 已 看 到 过 ， 但 username 不 相符 的 记录 上 。 


执行 END 规则 时 ， 所 有 留 在 name 数组 里 的 记录 表示 的 是 唯一 的 记录 。 它 们 会 被 写 到 
uniquel 文件 里 ， 然 后 再 关闭 所 有 文件 。 

remove_Uuid_by_name () 与 emnove_name_by uid() 是 awk 函数 。awk 里 的 用 户 定 义 
函数 在 9.8 节 里 已 作 过 介绍 。 这 两 个 函数 的 功能 是 分 别 自 uid 与 name 数组 中 ， 删 除 不 
表 需 要 的 信息 。 

执行 建立 这 些 文件 的 程序 


awk -f splitout.awk mergel 


11.3.2 管理 UID 
现在 ， 我 们 已 有 分 类 的 用 户 了 ， 下 一 项 任务 ， 就 是 建立 使 用 中 的 UID 编号 列表 : 


awk -F: '‘{ print $3 }' mergel | sort -n -u > unique-ids 


我 们 可 以 通过 计算 mergel 与 unique-ids 里 的 行 数 ， 验 证 唯一 的 UID 编号: 


$ we -1 mergel unique-ids 
20 mergel 
14 unique- ids 
.34 total 


继续 我 们 的 任务 列表 ， 下 一 步 便 是 编写 程序 ,产生 未 使 用 的 UID 。 软 认 的 情况 下 , :程序 
会 读 取 使 用 中 UID 编 号 的 排序 后 列表 , 然后 打印 第 一 个 可 用 的 UID 编号。 不 过 因为 我 们 
处 理 的 是 多 用 户 ， 因 此 我 们 要 的 是 一 批 未 使 用 的 UID。 这 部 分 可 使 用 -c 选项 指定 ， 只 
要 提供 UID 个 数 ， 即 可 应 要 求 产生 。 例 11-4 的 newuiadas .sh 脚本 便 是 执行 这 一 任务 。 
例 11-4: newuids.sh 人 

#! /bin/sh - . - . 

#. newuids --- a uid  ， | : hs 


# 
# 语法 : 
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， 9 
非 newuids [-c N] list-of-ids-file 


# -CN 显示 N 个 未 使 用 的 uia 
aiatst # 预定 要 显示 的 uid 个 数 


# 解析 参数 ， 令 sh 发 出 诊断 
# 必要 时 离开 程序 
while getopts "c:" opt 
do 
case S$opt in 
C) count=$OPTARG ;; 
esac 
done 


shift $(($0PTIND - 1)) 
IDFILE=$1 


awk -V count=$count ' 
BEGIN { 
for (i = 1; getline id > 0; i++) 
uidlist [i] = 二 
totalids = i 
for (i =:2; i <= totalids; i++) { 
if (uidlist[i-1] != uidalist[i]l) { 
for (j = uidlist([i-1] + 1; j < uidlist[i]; j++) { 
print j ， 
if (--count == 0) 
exit 


} 
} 
}' $IDFILE 


绝 大 多 数 的 工作 都 是 在 awk 行 内 程序 中 完成 。 首 先 读 取 UID 编 号 列表 到 uid1ist 数组 
中 ,foz 循环 处 理 整 个 数组 。 当 它 发 现 两 个 元 素 值 不 相 邻 时 ,， 则 依次 通过 并 显示 在 那些 
元 素 之 间 的 内 含 值 ， 每 次 减少 count ， 使 得 只 有 count 个 UID 编号 会 显示 。 


在 Shell 里 ,更 能 直接 作 数 组 处 理 与 算术 的 支持 , 例如 ksh93 与 bash, 让 Shell 做 完 所 有 
的 工作 并 不 是 不 可 能 。 事实 上 ， 这 个 awk 脚本 乃 派生 自 ksh93 的 见 htip:// 
linux.oreillynet.com/pub/a/linux/2002/05/09/uid.html., 


11.3.3 用 户 一 旧 UID -新 UID 的 建立 


现在 要 处 理 的 是 dupusers 与 Qupids 这 两 个 文件 。 输 出 文件 将 列 出 以 空格 作为 分 隔 、 一 
行 一 条 记录 的 “username 一 旧 UID 一 新 UID” 和 列表, 以便 再 作 处 理 。 对 Gupusers 来 
说 ,处 理 方式 很 直接 明了 : 第 一 条 遇 到 的 记录 为 旧 UID ， 下 一 个 则 是 新 选择 的 UID ( 换 
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名 话说, 我 们 任意 地 决定 使 用 第 二 个 较 大 的 UID 供 用 户 的 所 有 文件 使 用 ) 。 与 此 同时 , 我 
们 还 为 列 在 这 两 者 文件 中 的 用 户 建立 最 终 的 /etc/passwd 记录 。 





注意 ， 这 个 计划 平等 对 待 两 个 系统 的 磁盘 ,要 求 两 个 系统 上 的 文件 所 有 权 都 需 变 更 。 对 于 可 能 耗 
费 更 多 时 间 改 变 文 件 所 有 权 来 说 ,编写 这 个 程序 代码 是 简单 多 了 。 另 一 种 选择 是 保持 某 个 
系统 里 的 文件 不 动 ， 我 们 称 该 系统 为 主 系统 ， 也 就 是 说 只 改变 第 二 台 系 统 里 的 所 有 权 。 这 
部 分 的 程序 就 不 好 写 了 , 我们 把 这 部 分 留 给 读者 自行 练习 。 





这 是 程序 代码 : 
rm -f old~new~list 


old_ifs=$IFS 


下 FS 
while read user passwd uid gid fullname homedir Shell 
do ， 
if read user2 passwd2 uid2 gid2 fullname2 homedir2 Shell2 | 
then E 
it f{ $user = $user2 ] 
then - : 、 
printf "%s\t%s\t%s\n" $user S$uid S$uid2 >> old-new-list 
echo "$user:$passwd:$uid2:s$gid:$fullname: $shomedir:$Shell" 
else 
echo $0: out of sync: $user and $user2 >&2 
exit 1 
fi 
else 
echo $0: no duplicate for Suser >&2 
exit 1 
£1i 


done < dupusers > unique2 | 
IFS=$0old_ifs 


我 们 使 用 Shell 的 read 命令, 自 Gupusers 读 取 每 一 组 行 ， 传 送 最 终 密 码 文件 记录 了 予 
unique2。 同 时 ， 将 想 要 的 输出 传 至 新 文件 ol1d-new-1ist。 这 里 必须 使 用 >> 运算 
符 ， 因 为 我 们 是 使 用 循环 ， 每 次 加 入 一 条 新 记录 。 为 确保 该 文件 为 全 新 状态 ,在 进入 循 
环 主体 之 前 先 作 删 除 操作 。 

设置 ITFS 为 :， 可 以 让 密码 文件 行 的 读 取 更 容易 ， 它 能 够 正确 地 处 理 每 条 以 冒号 隔 开 的 
”字段 。IFS 的 原始 值 存储 在 ol16_ifs 内 ， 并 在 循环 之 后 被 恢复 (我 们 当然 可 以 直接 使 
用 IFS= :read... 的 方式 , 但 这 么 做 我 们 在 处 理 两 个 read 语句 时 就 得 更 小 心 了 ) 。 


类 似 的 程序 代码 也 可 应 用 于 UID 编 号 相同 、 username 不 同 的 用 户 。 这 里 我 们 一 样 选择 简 
化 : 给 所 有 这 样 的 用 户 一 个 全 新 的 、 未 使 用 的 UID 编号 。( 也 就 是 说 ， 让 每 组 里 的 第 一 
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个 用 户 保持 原 有 的 UID 编号 ， 然 而 这 需要 只 变更 第 二 个 用 户 所 在 的 系统 里 的 文件 所 有 


权 。 在 现实 情况 下 ， 这 么 做 的 确 比 较 好 )。 
count=$ {wc -1 < dupids) # 计算 所 有 重复 的 id 
# 如 果 POSIX sh 里 有 数组 ,请 这 么 用 : 


”Set -- ${newuids.sh -c S$count unique-ids) 


TFS=: 
while read user passwd uid gid fullname homedir Shell 
do 

newuid=$1 

shift 


echo "$user:$passwd: $newuid:$gid:$fullname: $homedir:$Shell" 
printf "*%s\t%s\t$Ss\n" Suser S$uid S$newuid >> old-new-list 


done < dupids > unique3 
IFS=$old_ifs 


为 了 更 方便 拥有 所 有 新 的 UID 编 号 , 我 们 通过 set 与 命令 替换 功能 , 将 它们 放置 在 位 置 
参数 中 。 然 后 通过 从 $1 开始 指定 ,可 自 循环 中 将 每 个 新 UID 取出 , 并 使 用 shift 将 下 


一 个 替换 。 完 成 时 ， 我 们 将 拥有 三 个 新 的 输出 文件 ; 


$ cat unique2 拥有 两 个 UID 的 用 户 
ben:x:301:10:Ben Franklin:/home/ben:/bin/bash 
jhancock:x:300:10:;John Hancock:/home/jhancock: /bin/bash 


$ cat unique3 取得 新 UID 的 用 户 
abe:x:4:10:Honest Abe Lincoln:/home/abe:/bin/bash 
tj:x:5:10:Thomas Jefferson:/home/tj:/bin/bash 
dorothy:x:6:10:Dorothy Gale:/home/dorothy:/bin/bash 
toto:x:7:10:Toto Gale:/home/toto:/bin/bash 


$ cat old-new-list 用 户 -olda-new 列表 
ben 201 301 

jhancock 200 300 | 

abe 105 4 见 下 个 段落 说 明 

tj 105 5 se 4 

dorothy 110 6 

toto . 110 7 


最 后 的 密码 文件 乃 由 三 个 unique? 文件 合并 而 成 。 ee re 不 过 以 UID 


i 顺序 合并 它们 会 是 比较 好 的 方式 : 


sort -Kk 3 -t : -nn unique[123] > final password 


通 配 字符 unique [123] 展开 为 三 个 文件 名 uniquel、 unigue2 以 及 Meues 以 下 为 


排序 的 最 后 结 吉 果 ; 


$ cat final .password 
root:x:0:0:root:/root:/bin/bash 
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bin:x:1:1;bin:/bin:/sbin/nologin 
daemon:x:2:2:daemon:/sbin:/sbin/nologin 
adm:;x:3:4:adm: /var/adm:/sbin/nologin ， 
abe:x:4:10:Honest Abe Lincoln:/home/abe:/bin/bash 
tj:x:5:10:Thomas Jefferson:/home/tj:/bin/bash : 
dorothy:x:6:10:Dorothy. Gale:/home/dorothy: /bin/bash : 
toto:x:7:10:Toto Gale:/home/toto: /bin/bash 

‘ camus:x:112:10:Albert Camus:/home/camus: /bin/bash 
jhancock:x:300:10:John Hancock:/home/jhancock: /bin/bash 
ben:x:301:10:Ben Franklin:/home/ben:/bin/bash 
george:x:1100:10:George’ Washington: /home/george:/bin/bash 
betsy:x:1110:10:Betsy Ross:/home/betsy:/bin/bash 
tolstoy:x:2076:10:Leo Tolstoy:/home/tolstoy:/bin/bash 


11.4 改变 文件 所 有 权 


乍 看 之 下 ， 改 变 文件 所 有 权 很 简单 。 只 要 提供 username 与 新 UID 编号 列表 ， 我 们 应 该 
能 编写 一 个 像 下 面 这 样 的 循环 ( 需 以 *oot 权限 执行 ) : 
while read user old new 
do 
cd /home/Suser 改变 用 户 目录 
chown -R Snew . 递归 地 改变 所 有 权 ， 见 chown (1) 


done < old-new-list 
这 个 程序 的 想法 是 : 改变 用 户 的 根 目录 , 并 递归 执行 chown, 将 所 有 文件、 目录 都 改 成 
新 的 UID 编号。 不 过 , 这 是 不 够 的 ! 用 户 的 文件 有 可 能 放 在 根 目 录 以 外 的 地 方 。 举例 来 
说 ， 有 两 个 用 户 ben 与 jhancock， 它们 共同 参与 一 个 项 目 ， 量 于 /home/ben/ 
declaration 下 :， 

$ ca AR 

$ 18 -1 draft* 


-IrW-r--r-- 1 ben fathers 2102 Jul 3 16:00 draft10 
-IW-r--Ir-- 1 jhancock fathers 2191 Jul 3 17:09 draft .final 


如 果 我 们 只 是 作 递归 的 chown 处 理 , 两 个 文件 最 后 都 会 属于 ben, 而 jhancock 在 大 文 
件 系 统 重组 织 (Great Filesystem Reorganization) 过 后 , 不 会 高 兴 把 每 日 的 工作 归功 给 
ben 的 。 


不 过 更 糟 的 情况 应 该 是 : 用 户 拥 有 的 文件 ， 放 在 根 目录 之 外 的 地 方 。/tmp 就 是 一 个 明 
显 的 例子 ， 不 过 还 有 源 代码 管理 系统 ， 像 CVS 也 会 有 这 种 情况 。 CVS 针对 项 目 存储 主 
文件 (master files) 在 软件 库 内 ， 通常 这 个 地 方 不 会 是 任何 人 的 根 目录 ， 且 多 半 是 在 系 
统 目 录 的 某 一 处 。 软 件 库 的 原始 文件 属于 多 位 用 户 。 这 些 文件 的 所 有 权 也 应 该 人 更改。 


这 样 , 确保 所 有 文件 在 每 个 地 方 都 被 正确 更 改 的 唯一 方式 , 便 是 使 用 find, 从 根 目录 开 
始 做 。 完 成 此 目标 最 显而易见 的 方式 就 是 在 find 里 执行 chown， 像 这 样 
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find / -user $user -exec chown S$newuid '‘{}' AN; 


这 么 做 会 执行 彻底 的 文件 查找 , 检查 系统 里 每 一 个 文件 与 目录 , 看 是 否 有 属于 $user 用 
户 的 东西 。 find 会 针对 每 个 相符 的 文件 与 目录 执行 chown, 将 所 有 权 改 为 $newuid 里 
的 UID (find 命 令 在 10.4.3 节 有 说 明 ，-exec 选项 会 针对 每 一 个 与 条 件 比 对 相符 的 文 
件 执 行 接 下 来 的 所 有 和 参数， 直至 分 号 为 止 。 finad 命 令 里 的 {} 意 指 替换 找到 的 文件 名 称 
至 命令 中 )。 不 过 , 这 种 使 用 finad 的 代价 很 高 ， 因为 它 会 针对 每 一 个 文件 或 目录 ， 建立 
一 个 新 的 chown 进程 。 因 此 ， 我 们 结合 合 find 与 xargs: 

# 一 般 版 本 : 


find / -user Suser -print | xargs chown Snewuid 


# 如 果 你 有 GNU 工具 集 : 


# find / -user Suser -print0 | xargs -R91 Chown. Snewuid . 


这 样 做 执行 一 样 彻 底 的 文件 查找 ,这 次 会 打印 系统 里 每 个 属于 $user 的 文件 与 目录 的 名 
称 。 该 列表 之 后 会 以 管道 传递 给 xargs， 它 会 尽 可 能 地 在 所 有 文件 上 执行 chown,; 将 
所 有 权 改 为 Snewuid 里 的 UID。 


现在 ， 考 虚 old-new-1ist 文件 里 出 现 这 样 数据 的 情况 : 


juser 25 10 
mrwizard 10 30 


这 里 有 顺序 的 问题 。 如 果 我 们 在 变更 mrwizara 文 件 的 所 有 权 之 前 ， 先 改变 所 有 juser 
的 文件 为 UD 10， 则 I 所 有 - juser -的 文件 最 后 将 会 变 成 mrwizard 所 拥有 | 


这 部 分 可 使 用 UNIX 的 tsort 程序 解决 ， 该 程序 为 拓扑 排序 (Topological sorting 针对 
部 分 已 排序 的 数据 ， 强 化 完整 排序 功能 ) 。 以 我 们 的 目标 来 看 ， 必 须 以 新 UID 、 旧 UID 
的 顺序 ， 将 数据 传 给 tsort: | 

$ tgsort << EOF 

> 30 10 

> 10 25 es a 

> EOF | | 

”30 i ye | 

10 、\ 


25 
输出 结 吉 果 告诉 我 们 : 必须 在 25 改变 为 10 之 前 ， 将 10 改 为 30。 你 应 读 可 以 想象 必须 
非常 小 心 写 肢 本 。 不 过 ， 我 们 可 以 做 一 些 巧妙 的 处 理 ， 完全 避 开 这 个 问题 | 记得 不 同名 
称 让 拥有 重复 的 UID 编号 的 情况 名? 
| s cat gdupids 


. abe; Xs 105:10:Honest :Abe Lincoln: /home/abe: /bin/bash 
tj: x:105: 10: Thomas Jefferson: /home/tj: /bin/bash 
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mr :dorothy :x:110:10:Dorothy Gale:/home/dorothy:/bin/bash 
toto:x:110:10:;Toto Gale:/home/toto:/bin/bash 


我 们 给 | ed UID : 
$ cat final. agpwad. 
Aabe, x:4:10:Honest Abe .Lincoln: /home/abe: /bin/bash 
tj:x:5:10: Thomas Jefferson: i:/home/tj:/bin/bash 


dorothy:x:6:10:;Dorothy Gale:/home/dorotly:/bin/bash: + 
toto:x:7:10:;Toto Gale: /home/toto: /bin/bash 


提供 它们 在 任何 地 方 都 没 使 用 的 UID 编号 ， 就 无 须 担心 fina 命令 的 顺序 了 。 


主 程序 的 最 后 部 分 是 产生 find 与 xargs 命 令 的 列表 。 我 们 选择 将 该 命令 列表 写 到 文件 
chown-files 中 , 这 么 一 来 便 能 分 别 在 后 台中 执行 。 这 是 由 于 程序 执行 极 可 能 耗费 许多 
时 间 , 而 我 们 的 系统 管理 员 , 在 花 了 这 么 多 时 间 开 发 与 测试 这 个 脚本 后 , 开始 执行 它 之 
后 应 该 想 要 好 好 回 家 睡 个 大 觉 了 ! 脚本 的 最 后 结果 如 下 : 


while read user old new 
do 

echo *find / -user $user -print | xargs Chown Snew" 
done < old-new-list > chown-files 


chmod +x chown-files 


rm mergel unique{123] Gupusers dupigds unique-ids olG-new-list 


这 里 ，chown- files 文 件 看 起 来 如 下 所 未; 


$ cat chown-files 一 


find / -user ben -print | xargs chown 301 

find / -user jhancock -print | xargs chown 300 
find / -user abe -print | xargs chown 4 

find / -user. tj -print | xargs chown 5 
find / -user dorothy -print | xargs chown 6 
find / -user toto -print | xargs chown 7 


还 记得 old-new-1ist 文件 吗 ? 


$ cat old-new-list 


ben 201 301 
jhancock 200 300 
abe 105 4 

tj 105 5 

dorothy 110 6 

toto 110 7 


你 可 能 已 经 注意 到 abe 与 tj 两 者 一 开始 拥有 相同 UID, 类 似 情况 也 出 现在 dorothy 与 
toto 上 。 执行 chown-files 时 发 生 什么 事 了 ? 不 是 所 有 tj 的 文件 最 后 都 属于 新 的 UID 
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4 吗 ? 不 是 所 有 toto 的 文件 ， 最 后 都 属于 新 的 UID 6 吗 ? 我 们 不 是 做 好 避 开 问题 的 措 
施 了 吗 ? 


答案 是 : 在 放置 新 的 /etc/passwd 文 件 到 每 个 系统 上 之 前 , 只 要 我 们 分 别 在 每 个 系统 上 
执行 这 些 命令 ， 就 会 是 很 安全 的 。 记 得 一 开始 ，abe 与 dorothy 只 存在 于 ul 里 , 而 
tj 与 foto 也 只 在 u2 里 ， 因 此 ， 当 chown-files 搭配 原来 的 /etc/passwda 在 ul 里 
执行 时 ，Eina 都 不 会 寻找 tj 或 toto 的 文件 ， 因 为 这 些 用 户 不 存在 : 


$ find / -USer toto -print 
find: invalid argument ‘toto' to ‘-user' 


类 似 失败 的 情况 也 会 出 现在 u2 的 对 照 组 里 。 完 整 的 merge-systems .sh 脚本 如 例 11-5 
所 示 。 


例 1， merge-systems.sh 程序 

#! /bin/sh ~ | 
sort ul.passwd u2.passwd > mergel 

awk -f splitout.awk mergel 

awk -F: '{ print $3 }' mergel | sort -n -u > unique-ids 

rm -f old-new-list 


old_ifs=$IFS 


IFS=: 
while read user passwd uid gid fullname homedir Shell 
do 
if read user2 passwd2 uid2 gid2 fullname2 homedir2 Shell2 
then 
if [ $user = $user2 ] 
then 
printf "%s\t%s\t%s\n" $user S$uid $uid2 >> old-new-list 
echo "$user:S$passwd:$uid2:$gid:$fullname:$homedir:$Shell" 
else 
echo $0: out of sync: $user and $user2 >&2 
exit 1 
fi 
else 
echo $0: no duplicate for $user >&2 
exit 1 
fi 


done < dupusers > unique2 
IFS=$0ld_ifs 


count=$ (wc -1 < dupids) # 计算 重复 的 id 数目 
# 如 果 POSIX sh 有 数组 ， 请 这 么 用 : 
set -- $(newuids .sh -c $count unique-ids) 
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TS= 
while Fead user passwd uid gid fullname homedir Shell 
do 

newuid=$1 

Shift 


echo "$user:S$passwd:S$newuid:$gid:$ftullname:S$homedir:SShe11T?.， 
printf "%SsN\tgsNtgsNn"” $user S$uid $newuid >> old-new-list 

done < dupids > unique3 

IFS=$0lqd_ifs 

sort -k 3 -t : -n unique[123] > final.password 

while read user old new 

do . | 
echo "find / -user Suser -Brint | xargs chown Snewa 

done < old-new-list.,> chown-files , 


chmod +X chown-files 


rm mergel unique[123] dupusers dupids unique-~ids old-new-list 


rai 
11.5 其 他 真实 世界 的 议题 
还 有 其 他 真实 世界 里 可 能 面临 的 议题 。 在 这 里 我 们 不 写 程序 代码 ， 仅 作 简短 的 讨论 。 
首先 最 明显 的 是 /etc/group 文 件 也 可 能 得 合并 。 针对 此 文件 来 说 ， 必须 做 的 有 : 


。 确认 合并 后 的 eb /group 已 包含 所 有 来 自 个 别 系统 里 的 所 有 组 ， 且 具 有 相间 的 
唯一 GID。 这 几乎 完全 与 我 们 解答 过 的 username/UID 议题 相似 ， 只 是 文件 格式 有 
“所 不 同 。 


。 ”在 不 同系 统 上 的 相同 组 中 ， 进 行 用 户 的 逻辑 性 合并 。 例 如 ， 


floppy:x:5:tolstoy, camus 在 ul /etc/group 中 
floppy:xX:5:george,betsy . 在 u2 /etc/group 中 


当 文 件 被 合并 时 ， 组 floppy 的 项 目 必 须 是 ，; 
floppy:x:5:tolstoy,camus, george, betsy 用 户 的 顺序 不 重要 

。 “所 有 文件 的 GID 必须 与 合并 后 的 新 /etc/group 同 步 , 就 像 UID 的 处 理 一 样 关 如 果 
你 够 聪明 ， 应 该 知道 要 产生 一 个 包含 UID 与 GID 的 find … | xargs chown … 
命令 , 让 它们 只 要 被 执行 一 次 就 好 。 可 节省 机 器 处 理 时 间 , 但 要 花费 额外 写 程序 的 
时 间 。 


再 者 , 任何 一 个 大 型 的 系统 , 都 可 能 会 出 现 文件 拥有 已 不 存在 于 /etc/passwg 与 /etc/ 
group 里 的 UID 或 GID 值 。 要 寻找 这 类 的 文件 ， 可 以 这 么 做 : 


www.TopSage.com 





find / '(- -nouser -0o -nogroup ')' -ls 


这 样 做 将 产生 类 似 1s-dils 输出 格式 的 文件 列表 。 这 类 列表 可 能 应 该 要 做 人 工 检查 ， 
来 决定 哪些 用 户 与 /或 组 应 重新 指定 ,或 者 需 建立 哪些 新 的 用 户 (与 /或 组 )。 


以 前 者 来 说 ， 可 将 文件 再 进 一 步 处 理 : 产生 fina. .. | xargs chown... 这样 的 命令 
完成 任务 。 


者 只 是 简单 地 将 对 应 的 UID 与 GID 名 称 ， 加 入 到 /etc/passwa 与 /etc/group 文 件 
中 ， 不 过 你 应 特别 留意 这 些 未 使 用 的 UID 与 GID 编号 ， 是 否 未 与 合并 所 产生 的 UID 与 
GID 冲突 。 如 果 你 在 合并 之 前 建立 这 些 新 用 户 与 组 名 称 ， 就 不 会 遇 到 冲突 问题 。 


第 三 ,在 改变 文件 的 用 户 与 组 处 理 期 间 ,， 文件 系统 绝对 得 静止 。 即 ， 处 理 时 不 应 有 任何 
其 他 活动 发 生 。 最 好 是 让 系统 执行 在 单 用 户 模式 (single-user mode) 下 ,只 有 超级 用 
户 root 可 以 登录 ， 且 只 能 在 系统 的 物理 console 设备 上 完成 此 任务 。 


最 后 可 能 就 是 效率 议题 了 。 来 看 看 之 前 呈现 的 一 连 串 命令 : 


find / -user ben -print | xargs chown 301 i 
find / -user jhancock -print | xXargs chown 3D0. 


te 
GID 的 操作 。 在 用 户 很 少 或 系统 文件 不 多 的 情况 下 ( 像 是 只 有 一 个 硬盘 的 系统 ) ， 

可 以 忍受 。 但 如 果 有 几 百 或 几 千 个 用 户 的 文件 必须 更 改 ， 证 和 有 诗人 的 
磁盘 ; 我 们 就 得 使 用 另 一 个 解决 方案 。 使 用 像 这 样 的 管道 


find / -ls | awk -f make-— Ce awk old- to- new.txt - > /tmp/commands . sh 
。 在 执行 它 之 前 先 检查 /tmp/commands .sh 


/tmp/commands. sh | 
这 里 的 make-commands .awk 命令 为 awk 程序 , 先 读 取 来 自 o1d-to-new.txt 的 旧 换 新 
UID 变更 (此 文件 可 通过 修改 本 章 先 前 提 过 的 脚本 产生 ) 。 然 后 , make-commanids .awk 
会 针对 每 一 个 输出 的 文件 寻找 是 否 有 必需 被 变更 的 用 户 。 如 果 是 如 此 , 则 显示 chown 命 
令 列 ,一旦 所 有 的 命令 都 被 存储 , 便 能 在 执行 它们 之 前 先 看 过 i 
给 读者 作为 自我 练习 )。 | 


11.6 小 结 


本 章 已 经 重新 建立 并 解决 真实 世界 会 遇 到 的 问题 : 将 两 个 分 开 的 计算 机 系统 里 的 密友 文 
件 合 并 ， 以 便 通 过 NFS 共享 它们 的 文件 。 
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经 过 对 密码 文件 的 细心 研究 , 我 们 可 以 将 用 户 归 类 为 两 种 : 只 在 第 一 个 系统 里 或 只 在 第 
二 个 系统 里 , 以 及 两 个 系统 里 都 有 的 用 户 。 问 题 在 于 我 们 必须 确保 每 个 用 户 , 在 两 个 系 
统 里 拥有 一 致 且 具 有 独一无二 的 UID 编号 ， 而 每 个 用 户 的 文件 也 都 只 属于 他 们 自己 。 


解决 此 问题 需要 寻找 新 的 未 使 用 UID 编号 , 以 便 出 现 UID 冲突 时 可 取 用 之 ， 而 且 还 必须 
留意 改变 文件 所 有 权 的 命令 顺序 。 这 两 个 系统 必须 彻底 查找 , 确定 每 一 个 文件 的 拥有 者 
都 已 正确 更 新 。 


其 他 需要 解决 的 议题 , 在 形式 上 其 实 差不多 : 最 显著 的 应 该 是 合并 组 文件 , 以 及 将 所 有 
无 人 认领 的 文件 指定 拥有 者 。 为 安全 起 见 ， 当 这 些 运 行 在 进行 中 时 ,系统 应 该 是 静止 无 
任何 活动 的 状态 我们 也 大 致 说 明了 在 效率 前 提 下 的 另 一 个 解决 方案 。 


解决 方案 包含 了 针对 原始 密码 文件 进行 谨慎 的 过 滤 , 使 用 了 awk、sort、uniqg, 以 及 大 
量 使 用 while read... 循环 处 理 数 据 、 准 备 改变 用 户 文件 所 有 权 的 命令 。 以 find.、 
xargs， 以 及 chown: (当然 ) 完成 此 任务 。 : 四 


整个 解决 方案 的 程序 代码 不 到 170 行 , 这 数字 还 包含 了 注释 ! 以 C 程 序 解决 相同 问题 可 
能 不 只 是 产生 更 庞大 的 程序 代码 , 可 能 编写 、 测 试 与 除 虫 会 耗 掉 更 多 的 时 间 。 而 我 们 的 
解决 方案 , 通过 个 别 执行 的 命令 提供 更 安全 的 做 法 , 因为 提供 进行 人 为 检查 的 机 会 ,在 
变更 文件 所 有 权 之 前 先 作 确认 。 我 们 认为 这 是 一 个 相当 详尽 的 示范 ， 让 读者 们 了 解 ， 
UNIX 工 具 集 的 强大 功能 , 并 了 解 如 何 通过 软件 工具 Software Tool) 解决 手边 的 问题 。 
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本 章 利用 拼写 检查 ， 呈 现 各 种 Shel 脚本 的 不 同方 面 。 介 绍 完 spel1l 程序 后 , 我 们 会 告 
诉 你 如 何 构建 一 个 简单 又 好 用 的 拼写 检查 程序 。 紧 接着 再 介绍 如 何 利用 这 个 简单 的 Shell 
脚本 ,修改 手边 两 个 可 自由 使 用 的 拼写 程序 的 输出 ,让 它 看 起 来 就 像 传统 UNIX 的 spel1 
程序 那样 。 最 后 , 呈现 awk 写成 的 拼写 检查 程序 ， 让 读者 完整 了 解 这 个 语言 的 简单 利落 。 


12.1 spell 程序 
spe11 程 序 做 的 事 就 是 你 想 的 : 检查 文件 里 是 否 有 拼写 错误 。 这 个 程序 会 读 取 命令 行 上 
指定 的 所 有 文件 , 在 标准 输出 上 产生 排序 后 的 单词 列表 , 这 个 列表 上 的 单词 不 是 在 它 的 
字典 里 找 不 到 ， 就 是 无 法 从 标准 的 英文 文法 应 用 里 派生 出 来 (例如 “words” 派 生 自 
“word”)。 有 趣 的 是 ;， POSIX 并 未 对 spel1 进行 标准 化 ， 在 它 的 文件 里 是 这 么 说 的 : 
该 工具 程序 对 Shell 脚本 或 传统 应 用 程序 并 无 用 处 。spell 是 深思 台 虑 后 的 设计 ， 
但 它 却 忽略 了 : 用 户 指 定 的 输入 如 果 未 伴随 完整 的 字典 , 则 没有 技术 可 识别 用 户 指 
定 的 输入 文件 。 
我 们 不 同意 上 述 的 第 一 部 分 。 试想 脚 本 的 自动 调试 与 问题 报告 , 有 人 可 能 会 想 要 显示 类 
似 的 这 些 行 : 
#!1 /bin/sh - 
# probreport --- 简单 的 问题 报告 程序 
file=/tmp/report.s$s$ 
echo "Type in the problem, finish with Control-D.” 
cat > $file 


while true 
338 
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do 
printf *[E]dit, Spell [Cl]heck, [Sjend, or [A]bort: " 
read choice 
case $choice in 
[Ee]*) S${EDITOR:-vi} $file 
[Cc]*) spell $file 
[Aal*) exit 0 
[Ss]*) break # from loop 
esac 
done 


传送 报告 


在 本 章 , 我 们 会 从 各 个 角度 审视 拼写 检查 ， 因为 这 部 分 很 有 趣 ， 我 们 有 机 会 以 不 同 的 方 
式 解决 问题 。 


12.2 最 初 的 UNIX 拼写 检查 原型 

以 拼写 检查 为 主题 的 研究 报告 及 书籍 已 经 不 少 于 300 项 ( 注 1)。 在 Jon Bentley 的 
《Programming Pearls》 一 书 ( 注 2) 里 曾 提 到 ;Steve Johnson 在 1975 年 的 某 个 午后 ， 
号 出 第 一 版 spell。 Bentley 之 后 略为 改造 ， 贡献 给 Kernighan 人 eo 该 程 
序 以 UNIX 的 管道 完成 ， 我 们 可 用 现代 语汇 改写 如 下 : 


. prepare filename | 删除 格式 化 命令 
tr A-Z a-z | 将 大 写字 母 对 应 到 小 写字 母 ， 
tr -c a-z '\n' | 删除 标点 符号 
sort | 将 单词 依 字母 顺序 排列 
uniq | 删除 重复 的 单词 
comm -13.dictionary - E 报告 不 在 字典 里 的 单词 


这 里 的 prepare 为 过 涉 程 序 ， 它 会 将 所 有 文件 标记 markup) 拿 掉 ! 最 简单 的 情况 ， 
只 要 用 到 cat 。 我 们 使 用 的 参数 语法 是 假定 0 GNU 版 本 


这 个 管道 里 唯一 我 们 还 未 曾 提 过 的 程序 便 是 comm， 它 是 用 以 比较 两 个 排序 后 的 文件 ， 
并 选 定 或 拒绝 两 个 文件 里 共同 的 行 。 这 里 使 用 -13 选项 , 因此 它 仅 输出 来 自 第 二 个 文件 
(管道 的 输入 ) 但 不 在 第 一 个 文件 (字典 ) 里 的 行 。 该 输出 为 拼写 异常 报告 。 





注 1: http://www.math.utah.edu/pub/tex/bib/index-table-s.htmi#spell 提供 了 丰富 的 参考 文献 。 


注 2: Jon Louis Bentley, 《Programming Pearls》，Addison- 6 1986, ISBN 0-201-10331-1。 


” 注 3: Brian W. Kernighan and P.J.Plauger, 《Software Tools in Pascal》, Addison- Wesley, 


1981, ISBN 0-201-10342-7。 
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comm 
语法 
comm [ options ... ] filel file2 
用 途 
指出 在 两 个 输入 文件 里 ， 哪 些 行 是 只 出 现在 其 中 一 个 文件 中 ， 或 者 两 个 文件 
里 都 有 出 现 。 
主要 选项 
=1 
不 要 显示 第 一 列 (只 在 filel 出 现 的 行 ) 
ey 


不 要 显示 第 二 列 (只 在 file2 出 现 的 行 ) 


-3 
不 要 显示 第 三 列 《两 个 文件 里 都 有 的 行 )” 

疮 为 模式 
逐 行 读 取 两 个 文件 ， 且 输入 文件 必须 都 已 排序 。 产生 的 输出 共 三 列 : 只 在 
filel 里 有 的 行 、 只 在 file2 里 有 的 行 , 以 及 两 个 文件 里 痢 有 的 行列 。 这 滴 
个 文件 名 其 中 一 个 可 以 是 -， 指 定 comm 读 取 标准 输入 。 

登 告 四 
它 的 选项 不 是 直接 式 的 ; 用 户 很 难 记得 为 了 删除 一 个 输出 列 ， 要 加 上 一 个 选 
项 ! 





Bentley 之 后 继续 讨论 贝尔 实验 室 的 Doug Mcllroy 于 1981 年 所 开发 的 拼写 检查 程序 , 包 
括 它 的 设计 与 应 用 、 如 何 将 字典 存储 在 小 型 的 内 存 里 ， 人 
尤其 是 在 像 英文 这 样 杂 乱 无 章 的 语言 上 。 


现代 的 spell 为 了 效率 而 使 用 C 完 成 。 不 过 ， 原始 的 管道 仍 在 贝尔 实验 宣 里 使 用 相当 
长 的 一 段 时 间 。 


128 改良 的 ispell 与 aspell 


UNIX 的 spel1 支 持 许多 选项 ， 不 过 有 很 多 是 平时 用 不 到 的 。 不 过 令 spel1 的 行为 模 
式 偏向 英 式 拼 法 的 -b: 选 项 异常 : 它 会 以 “centre” 取 代 “center”. 以 “colour” 取 代 
“color” 等 ( 注 4)。 要 了 解 其 他 选项 请 见 使 用 手册 。 


注 4: spell(1) 使 用 手册 中 的 BUGS 小 节 , 有 长 篇 说 明 “British spelling was done by an American”。 
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其 中 一 个 不 错 的 功能 就 是 : 你 可 以 提供 你 本 地 有 效 单词 的 拼写 列表 。 例如 , 在 特定 专门 
领域 中 的 正确 拼 法 , 但 在 spel1l 的 字典 里 是 不 存在 的 (例如 :; POSIX)。 你 可 以 建立 并 
长 期 维护 自 有 的 有 效 、 但 非 一 般 性 的 单词 列表 , 然后 在 执行 spe11 时 使 用 此 列表 。 指定 
本 地 拼写 列表 的 方式 , 是 标明 路 径 名 称 并 将 它 放 在 要 被 检查 的 文件 之 前 , 且 前 置 单个 的 
+ 字符: 


spell +/usr/local/lib/local .words myfile > myfile.errs 


12.3.1 私有 拼写 字典 


我 们 觉得 , 在 实际 上 最 重要 的 就 是 : 针对 你 所 写 的 任何 文件 都 提供 私有 拼写 字典 。 一 个 
通用 于 大 部 分 文件 的 字典 并 不 实用 ， 因 为 词汇 量 会 变 得 太 大 ， 且 无 法 确切 发 现 错误 。 
“syzygy” 在 数学 论文 里 可 能 是 正确 的 ， 但 在 小 说 里 ， _ 它 或 许 应 为 “soggy” 才 对 。 我 们 
发 现 , 几 百 万 行 的 技术 文件 大 全 配合 拼写 字典 作 比 较 , 几乎 是 每 六 行 就 出 现 一 个 拼写 异 
常 。 这 告诉 我 们 ， 拼 写 异 常 很 常见 ， 这 也 是 这 个 项 目 另 外 必须 解决 的 问题 。 


关于 spell 还 有 一 些 棘手 的 事 : 它 只 能 有 一 个 + 选项 , 且 其 字典 必须 以 字典 编纂 法 的 方 
式 排 序 , 这 是 个 很 粗糙 的 设计 , 即 spel1 的 绝 大 多 数 版 本 , 在 locale 变动 后 , 就 会 失灵 
(虽然 这 被 认为 是 个 很 差 的 设计 , 但 事实 上 那 只 是 未 预期 到 locale 的 出 现 所 导致 的 结果 。 
spell 的 代码 在 很 多 系统 上 已 使 用 20 年 以 上 未 作 更 改 , 而 当 底 层 的 程序 库 被 更 新 以 完 
成 locale 为 主 的 排序 时 ,没有 人 了 解 这 会 造成 影响 )。 举 例如 下 : 


$ env LC_ALL=en. _GB spell Ye Sok < bmeysj .blib | wc -1 
3674 

$ env LC_ ALL=en US Spell +ibmsysj.sok .< ibmeysJ.bib | wc -1 
3685 

$ env LC ALL-=C gpell +ibmsysj.sok < ibmsysj.bib | we -1 
2163 


然而 ， 如 果 私 人 字典 的 排序 符合 当前 locale 环境 ， 则 spell 可 适当 运行 ; 
$ env LC ALL=en GB Bort ibmeyej 。 Bok > /tmp/foo.en. GB 


$ env LC _ ALL=en_GB spell +/tmp/foo.en GB < ibmsysj .bib 1 we -1 
2163 


问题 是 默认 的 locale 在 操作 系统 版 本 之 间 可 能 有 所 不 同 。 ee 
ALL 环 境 变量 设置 为 与 私人 字典 排序 一 致 , 再 执行 spell。 我 们 将 在 下 一 节 提 供 spell 
已 排序 字典 需求 的 改写 方案 。 


12.3.2 ispell 与 aspell 


这 里 有 两 个 可 以 自由 取 用 的 拼写 检查 程序 ; ispell 与 aspel1l。 ispell 程 序 为 交互 模式 
的 拼写 检查 , 它 会 显示 文件 ,然后 将 所 有 拼写 错误 之 处 反 白 ,并 提供 建议 的 更 动 。 aspell 
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程序 也 类 似 ， 不 过 它 在 英文 上 提供 的 建议 更 正比 较 好 ， 且 其 作者 希望 它 最 终 能 取代 
ispel1。 这 两 个 程序 都 能 用 于 产生 拼 错 单词 的 简易 列表 ， be 
ispell, 所 以 它们 使 用 的 选项 相同 : | 


_1 
在 标准 输出 打印 拼 错 的 单词 列表 。 
-p file 
以 file 作 为 正确 单词 拼 法 的 个 人 字典 。 类 似 UNIX Sen 里 ， 以 + 起 始 的 私有 
文件 选项 。 


ispell 的 官方 网 站 在 http: /ficus- www.cs. 了 | html， 其 源 代码 可 在 
ftp://ftp.gnu.org/gnu/non- gnu/ispell/ ( 注 5) 找到 。aspel1 官方 网 站 则 为 htip:// 
aspell.net/， 源 代码 位 于 ftp:/fip. gn org/gnu/aspell/. - 


这 两 个 程序 都 提供 基本 的 批 处 理 拼写 检查 功能 。 当然 它们 同样 也 共享 了 坏 习 惯 ， 产生 未 
排序 的 结果 , 且 未 省 略 错误 单词 重复 的 部 分 (UNIX 的 spel1 没 有 这 两 个 问题 ) 。 因此 ， 
我 们 优秀 的 GNU/Linux 三 商 便 有 了 /usr/bin/spell 这 样 的 Shell 脚本 出 现 : 

#!/bin/sh 

# aspell -1 大 概 地 模仿 标准 UNIX spell 程序 

cat "$@" | aspell -1 ee 1 sort -u 
- -mo de 选项 使 得 aspe1l1 忽略 一 些 类 型 的 标记 ， 例 如 SGML 与 TEX。 这 里 的 
--mode=none 表 示 不 做 任何 的 过 滤 。sort -u 命 令 则 是 将 排序 结果 里 重复 的 部 分 去 除 ， 
产生 UNIX 老手 预期 看 到 的 结果 。 你 也 可 以 使 用 ispell 作 同 样 的 事 : 


cat "$8@"” | ispell -1 | sort -u 


有 两 种 方式 可 以 再 改进 这 个 脚本 ， Ue A Re 第 
一 个 替换 spell 脚本 的 方式 如 例 12-1。 


例 12-1: 以 ispell 代替 spell 
#1/bin/sh 


# UNIX 的 spell 把 `+file' 的 第 一 个 参数 看 作 是 
# 提供 私有 拼写 列表 ， 我 们 也 如 法 泡 制 。 


mydict= 
case $1 in 





注 5; emacs 利 用 ispell 在 交互 模式 下 进行 拼写 检查 , 处理 速度 会 很 快 , 因为 jspell 会 在 
后 台中 持续 执行 。 
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+?*) mydict=${1#+} # ei + 
mydict="-p $mydict" 
shift 


esac 


cat "$@" | ispell -1 $mydict | sort -u 


这 段 代码 只 是 查找 起 始 为 + 的 第 一 个 参数 ， 将 其 存储 到 变量 ， 截 去 + 字符 ， 再 放 入 准备 
好 的 -p 选项 、 传 递 给 ispel1 引 用。 


不 幸 的 是 : 该 技巧 在 aspel1 下 无 效 ， 因为 它 要 求 字 典 必须 为 编译 后 的 二 进 制 格式 。 如 
要 使 用 aspel1， 我 们 改 以 fgrep 手段 进行 ， 它 可 以 匹配 文件 内 所 提供 的 多 个 字 符 串 。 
我 们 另 加 入 -v 选项 ， 要 求 fgrep 显示 不 匹配 的 行 。 所 以 第 二 种 替换 spe11 脚本 的 方 
式 见 例 12-2。 
例 12-2: 以 aspell 取代 spell 

#!/bin/sh 


# UNIX 的 spell 把 `+file' 的 第 一 个 参数 看 作 是 
# 私有 拼写 列表 的 提供 ， 我 们 也 如 法 泡 制 。 


mydict=cat 

case $1 in 

+?*) mydict=${1#+} ”# 去 除开 头 的 + 
mydict="fgrep -Vv -f $mydict" | 
shift 

esac 


# aspell -1 模仿 标准 UNIX spell 程序 。 


cat "$@" | aspell -1 --mode=none | sort -u |eval $mydict 


如 果 你 不 想 要 排序 私有 字典 , 或 不 想 烦恼 不 同 的 locale 所 产生 的 不 同 排序 方式 ， 那么 相 
同 的 fgrep 后 续 处 理 技 巧 也 可 搭配 UNIX 的 spel1 使 用 。 : 


下 一 节 呈 现 的 是 spell 的 awk 版 本 ， 它 可 以 提供 功能 强大 又 简化 的 将 代 方 案 ， 是 我 们 
在 此 所 讨论 的 spel1 替换 的 另 一 种 选择 。 


12.4 在 awk 内 的 拼写 检查 程序 


本 节 要 呈现 的 是 提供 检查 拼写 的 程序 。 即便 所 有 UNIX 系统 都 有 spel1l, 有 些 甚 至 还 有 
aspell 或 ispell, 但 我 们 的 程序 兼 具 了 教育 性 与 实用 性 。 本 节 不 但 能 让 你 知道 awk 的 
功能 有 多 强大 ， 还 能 得 到 一 个 适用 于 所 有 平台 上 的 程序 ， 只 要 它 有 awk。 
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我 们 必须 强调 检查 (checking) 与 更 正 (correcting) 的 差别 。 后 者 必须 了 解 内 文 格 式 ， 
还 需要 人 为 确认 , 因此 完全 不 适 于 批 处 理 处 理 。 由 网 页 浏览 器 与 文本 处 理 程 序 所 提供 的 
自动 化 拼写 更 正 只 会 让 情况 变 得 更 糟 , 因为 它们 多 半 是 错 的 , 且 在 你 快速 输入 时 进行 的 
二 次 推断 ， 情 况 只 会 进一步 恶化 。 


emacs 文 字 编 辑 程序 提供 三 个 好 的 解决 方案 , 可 在 输入 内 文 期 间 提供 拼写 协助 : 可 依 需 
求 展 开 部 分 单词 以 动态 补 齐 单词 、 通 过 单一 按键 提出 对 当前 单词 的 拼写 验证 需求 ， 以 及 
flyspel1l 程序 库 可 用 以 要 求 以 不 那么 显眼 的 颜色 标示 出 可 能 有 误 的 单词 。 


只 要 你 能 在 拼 写 程序 主 指出 错误 时 认得 拼 错 的 部 分 ， 那么 能 够 报告 可 能 拼 错 单词 的 列表 及 
允许 你 提供 个 人 的 特殊 单词 列表 ， 非 字典 的 一 般 单词 , 会 是 比较 好 的 拼写 检查 程序 ， 可 
减少 该 报告 长 度 。 之 后 你 可 以 利用 这 份 报告 识别 错误 的 部 分 , 修正 它们 后 再 重新 产生 报 
告 《这 时 应 只 有 正确 的 单词 了 ) ， 然 后 将 它 的 内 容 加 入 到 你 私有 字典 里 。 由 于 我 们 的 写 
作 都 在 处 理 技 术 的 素材 , 它 时 常 充满 不 常见 的 单词 , 实际 上 我 们 保有 私人 的 与 特定 文件 
的 补充 字典 ， 应 用 到 我 们 所 写 的 每 个 文件 中 。 


为 引导 程序 的 进行 ， 这 里 列 出 几 个 我 们 的 拼写 检查 程序 预期 的 设计 目标 。 遵循 ISO 标准 
的 实际 ， 我 们 使 用 将 会 (shall) 指出 必须 做 的 ， 而 使 用 应 该 (should) 指出 想 要 做 的 : 


。 ”程序 将 会 能 够 读 取 文 字数 据 流 、 隔 离 单词 , 以 及 报告 不 在 已 知 单词 列表 [也 即 , 拼 
写字 典 (spelling dictionary)] 里 的 单词 实体 。 

。 ”将 会 有 一 个 默认 的 单词 列表 ， 由 一 个 或 多 个 系统 字典 收集 而 成 。 

。 ” 它 将 可 能 取代 默认 的 单词 列表 。 

。 ”标准 单词 列表 将 有 可 能 由 一 个 或 多 个 用 户 所 提供 的 单词 列表 而 扩 增 。 该 列表 在 技术 
性 文件 上 特别 有 用 , 例如 首 字 母 缩写 、 术语 及 专 有 名 词 , 它们 大 部 分 都 无 法 在 标准 
列表 里 找到 。 

。 ”单词 列表 将 无 须 排序 ， 这 点 与 UNIX 的 spell 不 同 ， 后 者 当 locale 变动 时 ， 会 

现 不 当 的 行为 模式 。 

。 虽然 歌 认 单词 列表 都 是 英文 ， 但 畏 以 适当 的 灶 代 性 单词 列表 ， 程序 将 可 以 处 理 任 何 
语言 的 文字 ， 只 要 它 是 以 基础 为 ASCII 的 字符 集 (编码 为 8 位 字 节 ) 呈现 , 以 空白 
字符 (whitespace) 分 隔 单词 。 这 消除 了 难 懂 语言 的 难度 ， 例 如 老挝 语 (Lao) 与 
素 文 (Thai) ， 它 们 缺乏 单词 内 的 空间 ， 因 此 需要 更 具 扩展 性 的 语意 分 析 才 能 识别 
单词 。 


。 “将 忽略 字母 大 小 写 ， 0 ss 不 过 异常 列表 报告 时 将 使 
用 原来 的 大 小 写 | 
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。 将 忽略 标点 符号 与 数字 ， 但 顿 点 符号 (缩写 的 一 抠 ) 将 视 为 字母 。 


。 默认 的 报告 将 为 排序 后 具有 独 一 无 二 单词 的 列表 (是 无 法 在 结合 的 单词 列表 里 找到 
的 ) 以 一 行 一 个 单词 的 方式 呈现 。 这 是 拼写 异常 列表 (spelling exception list) 。 


。 ”将 可 通过 选项 增加 异常 列表 报告 , 并 有 位 置信 息 , 例如 文件 名 与 行 编号 , 以 利 寻找 
与 更 正 拼 错 的 单词 。 报告 将 以 位 置 排序 , 且 当 它们 在 同一 位 置 发 现 多 个 异常 时 , 则 
进一步 依 异 常 单词 排序 。 


。 ”应 支持 用 户 可 指定 的 后 组 缩减 ， 让 单词 列表 保持 在 易于 管理 的 大 小 。 


在 本 节 最 后 的 例 12-4 中 , 我 们 会 展示 满足 上 述 所 有 目标 且 做 得 更 多 、 更 完整 的 程序 。 由 
于 程序 功能 相当 多 , 因此 本 节 接 下 来 会 辅 以 简单 文字 来 详 述 细节 ;并 将 程序 分 段 以 便 说 
明 。 


使 用 的 测试 输入 文件 包含 了 spe11 手册 页 前 几 段 的 内 容 ， 程 序 执行 结果 大 致 如 下 ; 


$ awk -f gpell.awk testfile 
deroff 

eqn 

ier 

nx 

tbl 

thier 


或 是 指定 元 长 模式 ， 则 为 


$ awk -上 spell.awk -- -verbose testfile. 
testfile:7:egn | 
testfile:7:tbl 

testfile:11 :deroff 

testfile:12:nx 

testfile:19:ier 

testfile:19:thier 


12.4.1 介绍 性 注释 
程序 会 从 详尽 的 注释 文字 开始 ， 不 过 在 这 里 ， 我 们 仅 展示 介绍 与 语法 部 分 : 


# 实例 简单 的 拼写 检查 程序 ， 措 配 用 户 可 定义 的 异常 列表 。 
# 内 置 字典 是 由 标准 的 UNIX 拼写 字典 列表 构建 而 成 。 

# 不 过 可 以 在 命令 行 上 覆盖 该 设置 。 

非 

# 


# 
# 语法 : 
# ““ awk [-V Dictionaries="sysdictl1 sysdict2. ..."] -f:spell.awk -- \ 
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和 


[=suffixfilel =suffixfile2 ...] [+dictl +dict2”,..%] \ 
# [-strip] [-verbose] [file(s)] 


12.4.2 主体 : 
程序 的 主体 只 有 三 行 ， 也 就 是 传统 awk 程序 的 ， 初始化、 处 理 与 报告 
BEGIN { initialize() } 


{ispell: check_line() } 


END © { report —exceptions() } 


程序 文件 剩余 部 分 的 所 有 细节 将 交 给 字母 顺序 排列 的 函数 处 理 , 但 在 本 节 将 以 逻辑 上 的 
顺序 描述 它 。 


12.4.3 initialize() 
initialize() 函数 处 理 程序 的 初始 化 工作 。 
变量 NonWordchars 里 的 正则 表达 式 , 是 用 以 删除 不 想 要 的 字符 。 与 ASCII 字 母 与 撤 号 


一 起 , 范围 在 161 到 255 内 的 字符 都 被 保留 作为 单词 字符 , 所 以 ASCII 的 文件 、 任何 ISO 
8859-n 字符 集 及 以 UTF-8 编码 的 Unicode， 所 有 都 能 被 处 理 而 无 须 关 心 字 符 集 。 


128 到 160 间 的 字符 会 被 忽略 ， 因 为 在 这 之 间 的 所 有 字符 集 ， 都 作为 额外 的 控制 字符 与 
一 个 无 中 断 的 空格 。 这 些 字符 集 里 有 部 分 具有 一 些 在 160 以 上 的 非 字 母 字符 , 但 使 用 它 
们 也 增加 了 我 们 不 想 要 的 字符 集 依赖 性 。 非 字母 字符 是 很 少见 的 , 即使 有 ， 在 我 们 的 程 
序 下 ， 最 坏 的 情况 就 是 在 拼写 异常 报告 里 偶尔 会 出 现 错误 。 


我 们 假定 将 进行 拼写 检查 的 文件 , 与 其 相关 联 的 字典 具有 相同 字符 集 编码 。 如 果 否 ， 则 
通过 iconv， 将 它们 转换 为 一 致 的 编码 。 


如 果 所 有 的 awk 实例 都 遵循 POSIX， 则 我 们 可 以 这 么 设置 Nonwotdachars， 


NonWordchars = ."{[^'[:alpha:]]" 


之 后 ,当前 locale 会 决定 应 忽略 哪些 字符 。 不 过 这 种 指定 方式 不 具 可 移植 性 ， 因为 有 很 
多 awk 实现 不 支持 POSIX 风格 的 正则 表达 式 : 


在 locale 导 入 UNIX 前 ,我 们 还 是 能 够 以 否定 单词 字符 集 的 方式 ,赋值 给 NonWordchars: 


NonWordChars = "{[^'A-Za-z\241-\377]" 


然而 ， 在 locale 的 出 现下 ， 正则 表达 式 里 字符 范围 是 按照 locale 类 型 而 被 解释 ， 所 以 其 
值 在 各 平台 间 的 结果 可 能 不 一 致 。 解决 方式 是 改 用 明白 地 列举 字符 的 方式 , 把 赋值 编写 
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为 连续 的 字符 串 ， 并 适当 地 对 齐 ， 以 利于 人 工 迅 速 识 别 否 定 字 符 集 里 的 字符 。 我 们 使 用 
八进制 表示 127 以 上 的 值 ， 因 为 这 么 做 会 比 混杂 重音 字符 要 来 得 清楚 许多 。 


initialize() 接 下 来 会 识别 并 载 人 字典 ， 并 处 理 命令 行 参数 与 后 组 规则 。 


function initialize!() 
{ 
NonWordChars = "[^" \ 
NN 
"ABCDERGHIUKLMNOPQRSTUVWXY2” \ 
"abcdefghijklmoparstuvwxyz*" \ 
"\241\242\243\244\245\246\247\250\251\252\253\254\255\256\257" 

"\260\261\262\263\264\265\266\267\270\271\272\273\274\275\276\277" 

"\300\301\302\303\304\305\306\307\310\311\312\313\314\315\316\317" 

*\320\321\322\323\324\325\326\327\330\331\332\333\334\335\336\337" 

"\340\341\342\343\344\345\346\347\350\351\352\353\354\355\356\357" 
"\360\361\362\363\364\365\366\367\370\371\372\373\374\375\376\377" 
和 ] 3 
get_dictionaries{() 
Scan_options () 
load dictionaries{() 
load_suffixes {) 
order_suffixes{) 


2 


12.4.4 get_dictionaries () 


get_dictionaries() 会 填 人 默认 系统 字典 的 列表 :我 们 提供 的 是 两 个 方便 取得 的 文件 。 
用 户 可 以 通过 提供 字典 列表 作为 命令 行 变 量 Dict:iionaries 的 值 ， 或 直接 使 用 
DICTIONARIES 环境 变量 ， 而 使 得 该 默认 选择 失效 。: 


如 果 Dictionaries 为 空 , 我 们 会 查阅 环境 数组 ENVIRON, 并 使 用 其 内 所 设置 的 值 。 如 
果 这 么 做 Dictionaries 依 然 为 空 , 我 们 就 会 提供 一 个 内 置 列表 。 该 列表 的 选择 必须 花 
点 心思 ， 因 为 在 不 同 的 UNIX 平 台 间 会 出 现 极 大 差异 , 而 且 在 文件 很 小 时 ,此 程序 所 消 
耗 的 大 部 分 执行 期 时 间 是 在 载 和 人 字典 。 除 此 之 外 ，Dictionaries 应 包含 一 个 以 空白 分 
隔 的 字典 文件 名 列表 , 我 们 会 将 其 切割 , 并 存储 在 全 局 性 DictionaryFiles 数 组 里 ,这 
里 选择 的 单词 列表 是 在 我 们 某 些 系统 里 spell 所 使 用 的 单词 列表 ( 约 25 000 条 记录 )， 
以 及 Donald Knuth 提供 的 一 个 较 大 型 列表 ( 约 110 000 条 记录 ， 注 6)。 


请 留意 字典 名 称 是 如 何 被 存储 的 : 它们 是 数组 索引 (indices), 而 非 数 组 值 (value) 。 这 
么 设计 的 理由 有 二 : 第 一 ， 它 可 以 自动 处 理 提 供 字 典 超过 一 次 以 上 的 情况 , 只 有 文件 名 
的 一 个 实体 被 存储 ， 第 二 ， 它 可 易于 使 用 for (key in arzray) 循 环 ， 和 迭代 经 过 整个 
字典 列表 。 无 须 维 护 用 于 计算 字典 数目 的 变量 。 





注 6: 可 俯 fip:/labrea.stanford.edu/pub/dict/words.gz 取得 。 
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这 是 代码 : 
function get_dictionaries! “ ‘files, key) 
{ 
if ({{Dictionaries == "™*) && (FDICTIONRARIESY in ENVIRON)) 
Dictionaries = ENVIRONT"*DICTIONRRIES" ] 
if (Dictionaries == "") # 使 用 歌 认 的 字典 列表 : 


{ 
DictionaryFiles[*/usr/dict/words"]++ 
DictionaryFiles["/usr/local/share/dict/words.knuth"]++ 
} . 
else # 使 用 命令 行 提供 的 系统 字典 
{ 
split (Dictionaries, files) 
for {key in files) 
DictionaryFiles[files{[key]]++ 


12.4.5 scan_options() 


scan_options () 处 理 的 是 命令 行 。 该 函数 预期 会 找到 选项 (-strip 与 /或 -verbose)、 
用 户 字 典 ( 以 UNIX spell 传统 的 开头 + 指定 ) 、 后 缀 规则 文件 〈 前 置 = 标记 ) 及 要 作 
拼写 检查 的 文件 。 任 何 的 -v 选项 所 设置 的 Dictionaries 变量 都 已 由 awk 处 理 , 且 不 
在 参数 数组 ARGV 中 。 


scan_options() 里 的 最 后 一 个 语句 得 解释 一 下 : 在 测试 期 间 ， 我 们 发 现 如 果 ARGV 结 
尾 处 留 有 空 参数 时 ，nawk 不 会 读 取 标 准 输入 ,但 gawk 与 mawk 会 。 因 此 我 们 在 ARGC 上 
减 一 ， 直 到 ARGV 的 结尾 有 一 个 非 空 的 参数 : 


function Scan_options ( K)， 
{ 
for (k = 1; k < ARGC; k++) 
{ 
if (ARGVI[k] = "-strip") 
{ 


二 


有 ARGV[IK] = "" 
Strip = 1 
共生 2 
else if (ARGV [Kk] . 
{ 


= "~-Vverbose") 


ARGYV [k] 寺 持 
-Verbose 1 


} ， 3 ， 

else if (ARGVIk] ~ /=/) “ # 后 级 文件 

{ . .| 
NSuffixFiles++ ’ : 
GE ee 2)]++ 
ARGV [k] 二 “和 和 
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} 
. else if (ARGV[k] ~ /^[+]/) # 私人 字典 
{ 
DictionaryFiles[substr (ARGV[k], 2)]++ 
ARGV[k] = "" 
} 
} 


# 删除 结尾 的 空 参数 (针对 nawk) 
while ((ARGC > 0) && (ARGV[ARGC-1] = = "")) 
ARGC-- 


12.4.6 load_dictionaries() 


load_qdictionaries() 会 从 所 有 的 字典 中 读 取 单词 列表 。 此 代码 相当 简单 : 外 部 循环 
处 理 DictionaryFiles 数 组 , 内 部 循环 则 利用 get1ine 一 次 读 取 一 行 。 每 一 行 正好 包 
含 已 确认 拼写 正确 的 一 个 单词 。 字典 只 建立 一 次 , 之 后 重复 使 用 ， 所 以 我 们 假定 行内 不 
会 有 空白 字符 ， 所 以 无 须 试 图 删除 它 。 每 个 单词 都 被 转换 为 小 写 ， 且 存储 为 全 局 性 
Dictionary 数 组 的 一 个 索引 。 无 须 另 外 计数 数组 中 的 记录 ， 因 为 数组 只 被 用 在 成 员 测 
试 中 的 其 他 地 方 。 以 这 类 测试 而 言 ,， 所 有 各 种 程序 语言 中 所 提供 的 数据 结构 中 ,关联 数 
组 是 最 快 ， 且 最 利落 的 处 理 方 式 : 

function load dictionaries!( file, word) 

{ ’ 

for (file in DictionaryFiles) 
while ((getline word < file) > 0) 


Dictionary [tolower (word) ] ++ 
close (file) | 


} 


12.4.7 load_suffixes() 


很 多 语言 的 单词 都 可 以 通过 切 开 后 缀 ,而 被 简化 为 更 短 的 根 单词 (root words)。 例 如 在 
英文 里 ， jumped. jumper, jumpers, jumpier, jumpiness. jumping. jumps 及 jumpy 的 
根 单词 都 为 jump。 后 组 有 时 也 会 改变 单词 的 最 终 字母 : try 为 triable、 trial、 tried 与 trying 
的 根 。 如此, 我 们 需要 存储 在 字典 里 的 基础 单词 集 , 就 会 比 包含 后 缀 的 单词 集 小 好 几 倍 。 
由 于 IO 与 计算 机 计算 比 起 来 相对 较 慢 ， 因 此 我 们 认为 ， 在 程序 里 处 理 后 组 以 缩短 字典 
大 小 ， 及 减少 异常 列表 里 错误 报告 的 数目 ， 是 值得 付出 的 。 


load_suffixes() 处 理 后 级 规则 的 载 信 。 不 同 于 载 入 字典 的 是 : 我 们 在 这 里 可 能 提供 
内 置 的 规则 ， 而 非 从 文件 中 读 取 。 因此， 我 们 保留 数组 里 的 记录 数目 的 全 局 性 计数 ， 该 
数组 是 保存 后 缀 规则 的 文件 名 。 
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后 缀 规则 会 带 有 解释 ， 且 为 了 说 明 , 我们 呈现 的 是 传统 的 英文 规则 ， 见 例 12-3。 我 们 以 
正则 表达 式 匹 配 后 级, 每 一 个 单词 末端 都 带 有 8$ 销 点 (anchor)。 当 后 组 被 截断 时 ， 则 必 
须 提 供 一 个 替换 后 绥 ， 例 如 把 rr+ied 缩短 成 tr+y， 且 时 常会 有 数 种 可 能 的 替换 。 


例 12-3: 英文 的 后 缓 规则: english.sfx 


'$ # Jones’ -> Jones 

S$ # it’'s -> it 

ablys$ able # affably -> affable 

eds$ # breaded -> bread, flamed -> flame 
edlys ed # ashamedly -> ashamed 

ess$ "" e # arches -> arch, blues -> blue 
ggeds g # debugged -> debug 

ieds$ iey # died -> die, cried -> cry 
iess$ ie ies y # Series -> series, ties -> tie, 1 -> fly 
ilys Y ily “8# tidily -> tidy, wily -> wily 

ings$ # jumping -> jump 

inglys$ "ns ing # alarmingly -> alarming or alarm 
lleds i ee # annulled -> annul 

ly$ 下 # acutely -> acute 

nnily$ | n # funnily -> fun 

ppeds p # handicapped -> handicap 

ppings$ p; # .dropping. -> drop 

rreds$ 工 # deferred 2 defer 

SS # cats -> cat 

tteds t # committed -> commit 


因此 , 后 毕 规 则 的 最 简单 规格 是 以 正则 表达 式 进 行 后 级 匹配 , 紧 接 着 一 个 以 空白 字符 分 
隔 的 替换 列表 。 因 为 可 能 的 替换 之 一 是 空 字 符 串 ， 我 们 以 "" 表示 。 如 果 它 是 唯一 的 替 
换 ， 那 我 们 会 省 略 它 。 英文 是 高 度 不 规则 且 拥 有 大 量 外 来 语 的 语言 ,所 以 有 许多 后 级 规 
则 , 且 绝 对 比 我 们 在 english.sfx 里 列 的 还 多 很 多 。 不 过 后 缀 列表 仅 用 于 降低 错误 报告 
的 发 生 ， 因 为 它 有 效 地 延展 字典 大 小 、 不 会 影响 程序 的 正确 运行 。 


为 了 便于 人 类 管理 后 级 规则 文件 ， 其 规则 必须 可 使 用 注释 扩展 以 提供 它们 的 应 用 范例 。 
我 们 遵循 一 般 UNIX 的 注释 实例 ， 也 就 是 从 # 到 行 结尾 都 为 注释 。 因 此 ，]1 9.aa_ 
suffixes () 会 截 去 注释 与 开头 、 结 尾 的 空白 字符 , 再 丢弃 空白 行 ee 
式 与 零 到 多 个 替换 的 列表 ， 用 于 其 他 地 方 可 以 调用 awk 内 置 的 字符 串 替 换 函 数 sub 

该 替换 列表 是 以 空白 分 量 的 字符 串 被 存储 ， 可 供 我 们 稍 候 在 其 上 应 用 split ( gs 


后 缀 替换 可 使 用 & 表 示 匹 配 文字 , 不 过 我 们 在 english,sfx 中 并 未 举 出 此 功能 的 例子 。 


我 们 曾 考 虚 让 1load_suffixes( ) 提 供 正则 表达 式 里 的 $ 销 点， 但 终究 推翻 这 个 想法 ， 因 
为 这 么 可 能 会 限制 其他 语言 所 要 求 的 后 缀 匹配 的 规格 。 ee Ba es 
相当 的 关注 ， 但 这 个 工作 只 和 需要 在 每 种 语言 里 做 一 次 就 好 。 | 
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遇 到 未 提供 后 缀 文件 的 情况 时 , 我 们 会 载 入 默认 的 后 缀 集 , 具有 空 的 替换 值 。sP1it () 
内 置 函 数 有 助 于 缩短 该 初始 化 的 代码 : : 


function load_ suffixes!{ file, k, line, n, parts) 
| if (NSuffixFiles > 0) # 自 文件 中 载 入 后 组 正则 表达 式 
| for (file in SuffixFiles) | 
while {{getline line < file) > 0) 
{ 


subl(" *#.*$", *", line) # 截 去 注释 
sub("^[ \t]+"，""，line) # 截 去 开头 空白 
sub("[ \t]+$"，"*,， line) # 截 去 结尾 空白 
LE (lie 

continue 


n = split(line, parts) 
Suffixes[lparts[11]++ 


Replacement [parts{1]] = parts{21 
for (kKk = 3; k <= n; k++) 
Replacement [parts{1]] = Replacement [parts[1]] * " \ 
parts[k] ， ， 


} 
close (file) 


else # 载 人 英文 后 组 正则 表达 式 的 默认 胡 格 


Split{"'$ 's$ ‘ed$ edlys$ esS ings ingly$ ly$ s$", parts) 
for (k in parts) 
{ 

Suffixes[lparts[k]] = 1 

Replacement [parts{k]}] = "" 


} 


12.4.8 order_suffixes() 


后 缀 替换 得 小 心地 处 理 ; 特别 是 它 应 该 以 “ 自 第 一 个 匹配 到 最 长 (longest-match-first)” 
的 算法 执行 。order_suffixes () 采 取 存 储 在 全 局 性 Suffixes 数组 中 的 后 组 规则 列 
表 ， 并 复制 一 份 到 ordaeredsuffix 数 组 ， 以 自 工 起 始 至 NOrderedsuffix 的 整数 作为 
数组 索引 。 


然后 ，order_suffixes() 会 使 用 简单 的 冒 泡 排序 , 通过 递减 模式 长 度 , 使 用 最 内 部 循 
环 里 的 swap () 函数 重新 排列 Orderedsuffix 里 的 记录 。swap () 的 运行 很 简单 : 在 
其 参数 数组 中 , 交换 元 素 i 与 j 。 该 排序 技巧 的 复杂 度 与 被 排序 元 素 的 数量 成 平方 比 , 不 
过 Norderedsuffix 预 期 不 会 那么 大 ， 所 以 该 排序 不 可 能 耗费 如 此 显著 的 程序 执行 期 : 
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function order_suffixes:( i, j, key) 
{ 
# 以 渐 减 的 长 度 排列 后 组 
NOrderedSuffix = 0 
for (key in Suffixes) 
OrderedSsuffix[++NOrderedSuffix] = key 
for (i = 1;.i <'"NOrderedSuffix; i++) 
for (j] = i + 1; j <= NOrderedSuffix; j++) 
if (length(OrderedSuffix[i]) < length(OrderedSuffix[j])) 
swap (OrderedSuffix, i, j) 
} 


function swap(a, i, j, temp) 
{ 

temp = al[il] 

a[li] = a[lj] 

a[j] = temp 


12.4.9 spell_check_line() 


我 们 已 介绍 完 程序 必 备 的 起 始 代码 。 在 程序 启动 时 的 第 二 组 模式 / 操作 会 调用 
spell_check_line() 处 理 输入 数据 流 的 每 一 行 。 


第 一 个 工作 便 是 将 此 行 减 为 一 个 单词 列表 。 内 置 函 数 gsub () 只 需 在 一 行 代码 中 将 非 文 
数字 的 字符 删除 ， 即 可 完成 此 任务 。 产 生 的 单词 可 以 通过 $1，$2，…，SNF 取 用 ， 
此 只 要 一 个 简单 的 for 循 环 即 可 重复 处 理 这 些 单词 ,将 它们 交 给 spell_check_word() 
个 别处 理 。 


以 一 般 awk 程序 惯例 来 说 ， 我 们 避免 在 函数 体 里 引用 匿名 式 的 数字 型 字段 名 称 ， 例 如 
$1, 而 倾向 于 将 它们 限制 在 较 短 的 操作 代码 块 里 。 不 过 有 个 异常 : $k, 它 是 整个 程序 里 
唯一 这 类 匿名 式 引 用 。 为 了 避免 修改 时 发 生 的 不 必要 记录 重组 , 我 们 复制 一 份 到 本 地 变 
量 后 ， 随 即 截 去 外 部 的 撤 号 字符 (缩写 的 一 撤 )， 并 传送 任何 非 空 的 结果 给 
spell_check_word() 进 行 下 一 步 处 理 : 


function spell_check_line!( k, word) 
{ 
: gsub(NonWordchars，" ") # 消除 非 单词 字符 
for (= Lk <= NF; k++) 
{ 
word = $k 
Bub{n A i WOrQ) # 截 去 开头 的 撒 号 字符 
sub("'+$", "*", Wword) # 截 去 结尾 的 撒 号 字符 
if {word != "") 


spell_check_word (word) 
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一 旦 单词 已 被 认可 , 则 字符 特有 的 特殊 处 理 方式 并 不 见得 好 。 但 撤 号 字符 在 某 些 语言 里 
指 的 只 是 省 略 , 以 及 外 部 引号 ,其实 它 是 个 过 载 的 字符 。 使 用 消除 它 的 引文 ， 可 以 降低 
最 后 拼写 异常 列表 里 错误 报告 的 数量 。 


截 去 撤 号 字符 对 荷 语 来 说 不 可 行 , 它 有 小 部 分 单词 是 将 撤 号 置 于 单词 初始 位 置 : n 对 于 
een、8 对 于 des， 以 及 江 对 于 Pet。 这 些 都 是 些 琐碎 细节 ， 你 可 以 通过 增加 异常 字典 的 方 
式 处 理 。 


12.4.10 spelL_check_word() 


spell_check_word () 是 真正 进行 处 理 的 地 方 ,不 过 在 大 部 分 情况 下 ,这 部 分 处 理 很 快 。 
如 果 在 全 局 性 Dictionary 数组 里 发 现 小 写 单词 有 拼写 正确 ， 则 我 们 可 立即 返回 。 


如 果 该 单词 未 出 现 于 单词 列表 中 , 即 可 能 是 拼写 异常 。 但 如 果 用 户 要 求 截 去 后 缀 ,那么 
我 们 就 得 再 做 点 什么 。strip_suffixes() 函数 的 功能 , 即 用 以 产生 一 个 或 多 个 相关 单 
词 列表 , 并 存储 为 本 地 word1i st 数组 的 索引 。for 循环 接着 会 处 理 这 个 列表 ,如 果 它 
发 现 Dictionary 数组 里 有 这 些 单词 ， 则 返回 。 


如 果 无 须 截 去 后 缀 ,或 我 们 未 于 字典 中 发 现任 何 替 换 单词 , 则 该 单词 确定 就 是 拼写 异常 
了 。 此 时 将 其 写 到 输出 报告 并 非 好 的 做 法 , 因为 我 们 通常 会 想 要 一 份 排序 后 没有 重复 的 
拼写 异常 列表 。 例如 awk 这 个 单词 在 本 章 已 出 现 超过 30 次 , 但 在 所 有 标准 UNIX 拼 写字 
典 里 都 找 不 到 它 。 因 此 我 们 将 这 个 单词 存储 到 全 局 性 Bxception 数 组 中 , 当 用 户 要 求 以 
元 长 模式 输出 结果 时 , 我 们 可 以 在 该 单词 前 置 一 个 位 置 , 其 由 一 个 冒号 终结 的 文件 名 与 
行 编号 所 定义 。 这 种 报告 的 形式 在 许多 UNIX 工 具 里 很 常见 , 也 易于 让 人 们 与 聪明 的 文 
字 编 辑 程序 迅速 了 解 。 需 留意 的 一 点 是 : 虽然 字母 大 小 写 在 字典 查找 作业 里 被 忽略 , 但 
在 此 报告 中 会 保留 原始 字母 的 大 小 写 ; 

. function spel1_check_wora(wora， key, lc_word, location, w, wordlist) 


{ 


lc_word = tolower (word) 


if (lc_word in Dictionary) # 可 接受 的 拼写 
return 
else #. 可 能 的 异常 
{ 
if {Strip) 


{ 

strip_suffixes (lc_word, wordlist) 

for {({w in wordlist) 

if (w in Dictionary) 
return 

} 
location = Verbose ? {FILENAME "™:" FNR “:") : ™" 
if (lc_word in Exception) : 
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Exception[lc_word] = Exception[lc_word] "\n” location word 
else ; 
Exceptibn[lc word] = location word 


12.4.11 strip_suffixes() … 


发 现 不 在 字典 里 的 单词 , 且 指 定 -strip 选 项 时 , 我 们 会 调用 strip_suffixes () 应 用 
后 缀 规则 。 其 循环 是 以 递减 的 后 组 长 度 ， 依 次 处 理 后 组 正则 表达 式 。 如 果 单 词 匹配 ， 则 
后 缀 会 被 删除 , 以 便 取得 根 单词 。 如 果 无 替换 的 后 缀 , 则 单词 将 存储 为 word1i st 数组 
的 索引 。 否则 , 我 们 会 将 替换 列表 切 分 为 各 个 数组 成 员 , 并 依次 附加 每 个 替换 到 根 单词 
中 , 将 它 增 加 到 woralist 数 组 。 > 个 特殊 情况 , 检查 是 否 
有 特殊 的 双 字 符 (two-character) 字符 串 "", 这 里 我 们 会 以 空 字符 串 取 代 。 一 旦 匹配 成 
功 , break 语 句 即 离开 循环 ， 全 多 四维 订 用 者 0 形 环 会 继续 下 一 个 后 
级 正则 表达 式 ， 


我 们 可 以 让 这 个 了 数 针 对 woralist 里 存储 的 单词 进 行 字典 碍 找 。 我 们 不 这 么 做 是 因为 

这 样 会 将 查找 与 后 组 处 理 混 在 一 起 ， 且 程序 将 很 难 扩展 以 显示 替换 的 伐 选 单词 (UNIX 
的 spel1 提供 -x 选 项 完成 此 工作 ， 处 理 每 一 个 可 采用 后 绿 的 输入 单词， 它 会 产生 具有 
相同 根 的 正确 拼 宫 单词 列表 )。 人 


虽然 后 组 规则 足以 应 付 许多 印 欧 语系 ， 但 其 他 语言 则 完全 不 需要 ， 更 有 另外 一 些 语言 在 
单词 拼 法 上 需 作 更 复杂 的 改动 , 不 管 是 在 文法 的 格 、 eh 对 这 类 语言 ,最 
de tas 


此 处 为 代码 ; 
function strip_suffixes (word, wordlist, ending, Kk, n, regexp) 
{ 
split{"*", wordlist)} 


for (k = 1; k <= NOrderedSuffix; k++) 
{ 二 从 
regexp = OrderedSuffix[k] 
if {match (word, regygexp)) 
{ 
word = substr(word, 1, RSTART - 1) 
if {Replacement [regexp] == "") 
wordlist[word] = 1 
else 
{ 
split (Replacement [regexp], ending) 
for tn in ending) 
{ 
if (enQing[n] == *\"\"*) 
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ending[n] = "" 
wordlist[word ending[n]] = 1 


break 


12.4.12 report_exceptions() 


程序 最 后 的 任务 , 会 从 最 后 三 组 模式 /操作 开始 。report_exceptions () 建 立 带 有 命令 
行 选项 的 sort 管道 处 理 , 视 用 户 是 否 要 求 具有 唯一 性 异常 单词 的 完整 列表 , 或 报告 是 
否 需 要 带 有 位 置信 息 的 元 长 模式 。 无论 是 哪 一 种 情况 , 我 们 提供 了 -三 选项 予 sort，, 令 
其 忽略 大 小 写 , 还 有 -u 选 项， 取得 具 唯一 性 (不 重复 ) 的 输出 行 。 简 单 的 for 循环 将 
异常 列表 输出 至 管道 ， 最 后 的 close () 会 关闭 管道 且 完 成 程序 。 


这 是 代码 : 


function report_exceptions!( key, sortpipe) 
{ i 
sortpipe = Verbose ? "sort -f -t: -u -kl,1 -k2n,2 -k3" : \ 
“sort -于 -u -ki" 
for (key in Exception) 
print Exception[key] | sortpipe 
close(sortpipe) 


} 
例 12-4 包含 了 完整 的 代码 ， 完 成 我 们 的 拼写 检查 程序 。 


例 12-4: 拼写 检查 程序 


# 实例 简单 的 拼写 检查 程序 ， 搭 配 用 户 可 指定 的 异常 列表 。 
# 内 置 字典 是 以 标准 的 UNIX 拼写 字典 列表 构建 。 
# 不 过 可 以 在 命令 行 上 儿 盖 它 。 


# 

# 语法 : 

# awk [-v Dictionaries="sysdictl] sysdict2 ..."] -f spell.awk -- \ 
# [=suffixfilel =suffixfile2 ...] [+dictl +dict2 ...] \ 

# [-strip] [-verbose] [file(s)] 


BEGIN { initialize() } 
{ spell_check_line() } 
END { report_exceptions() } 
function get_dictionaries!( files, key) 


{ 
if ((Dictionaries == "") && ("DICTIONARIES" in ENVIRON)) 
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{ 
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Dictionaries = ENVIRONI["DICTIONARIES"] 
f {Dictionaries == an) # 使 用 默认 目录 列表 


DictionaryFiles["/usr/dict/words"]++ 
DictionaryFiles{"/usr/local/share/dict/words.knuth"]++ 


else # 使 用 来 自命 令 行 的 系统 目录 


{ 


split (Dictionaries, files) 
for (key in files) 
DictionaryFiles[tiles[key]]++ 


function initializel() 


{ 


} 


NonWordChars = "[^* \ 


min \ 
"ABCDEFGHIJKLMNOPQORSTUVWXYZ" \ 
"abcdefghijklmopgqrstuvwxyz" \ 

"\241\242\243\244\245\246\247\250\251\252\253\254\255\256\257" 
*\260\261\262\263\264\265\266\267\270\271\272\273\274\275\276\277" 
"\300\301\302\303\304\305\306\307\310\311\312\313\314\315\316\317" 
"*\320\321\322\323\324\325\326\327\330\331\332\333\334\335\336\337”" 
"\340\341\342\343\344\345\346\347\350\351\352\353\354\355\356\357"* 
"\360\361\362\363\364\365\366N367\370\371\372\373\374\375\376\377" 
i | 有 


get_dictionaries()} 
scan_options{) 

load dictionaries{) 
load_suffixes() 
order_suffixes (} 


function load dictionaries!t{ file, word)} 


{ 


} 


for {file in DictionaryFiles} 


{ 


while {{getline word < file) > 0) 
Dictionary [tolower (word) ] ++ 
close (file) 


function load_ suffixes!( file, k, line, n, parts) 


{ 


if {NSuffixFiles > 0) # 自 文 件 载 入 后 绿 正 则 表达 式 


{ 


for {file in SuffixFiles)} 
{ 
while ((getline line < file} > 0) 
{ 
sub{" *#.*$", *", line) # 截 去 注释 
sub("^[ \t]+"，""，1line) # 截 去 前 置 空白 字符 
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sub("[ \tj+$”*，"*，1line) # 截 去 结尾 空白 字符 
I LIne :和 
continue 
n = split {line, parts) 
Suffixes[Iparts{[1]]++ 
Replacement {parts[1]] = parts{2] 
for {k = 3; k <= n; k++) 
Replacement [parts[1]] = Replacement [Parts[1]] " ”AN 
parts [k] 
} 
close{file) 


} 
else # 载 入 英文 后 级 正则 表达 式 的 默认 表格 
{ 
split{("'$ 's$ ed$ edly$ es$ ing$ inglys$ ly$ s$", parts) 
for (k in parts) 
{ 
Suffixes[parts[k]] = 1 
Replacement [PartS[K]j] = ?1 


} 


function order_suffixest( i, j, key) 
{ EE 
# 以 递减 的 长 讼 排列 后 级 
NOrderedSuffix = 0 
for (key in Suffixes) 
OrderedSuffix[++NOrderedSuffix] = key 
for {i = 1; i < NOrderedSuffix; i++) 
for (j= i+ 1; j <= NOrderedSuffix; j++) 
if {length{(OrderedSuffix[i]) < length{(OrderedSuffix[j])})) 
swap (OrderedSuffix, i, j)} 
} 


function report_exceptions( key, sortpipe)} 
{ 

sortpipe = Verbose ? "sort -f -t: -u -kl,1 -k2n,2 -k3" : \ 

"Sort -f ~u ~kl" 
for {key in Exception) 
print Exception[key] |{ sortpipe 

close (sortpipe) 

} 


function scan _options!{ k) 
{ 
for {k = 1; k < ARGC; k++) 
{ 
if {ARGV[k] == "-strip") 
{ 


ARGV[Kk] = 
Strip = 1- 
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else if (ARGV[k] 
{ 


RARGV [Kk] 
Verbose 


1 


} 
else if (ARGV[k] ~ /^=/) 
{ 

NSuffixFiles++ 


SuffixFiles[substr (ARGV[k], 


ARGV [Kk] 
} 
else if (RARGV[k]l ~ /^[+]/) 
{ 


== "-Verbose") 


# 后 弘文 件 


2)]++ 


# 私有 字典 


DictionaryFiles{[substr(ARGV[k], 2)]++ 


RARGV [Kk] = 
} 
} 


# 删除 结尾 的 空 参数 (for nawk) 


while ((ARGC > 0) && (ARGV[ARGC-1] 


ARGC-- 
} 


function spell_check_linel 
{ 

gsub(NonWordChars, " ") 
for (k = 1; k <= NF; k++) 


{ 


word = $k 
Sub WOrd) 
sub("'+$", "", word) 


if (Word Ts **) 
spell_check_word (word) 


} 


function spell_check_word (word, 
{ 
lc_word = tolower (word) 
if (lc_word in Dictionary) 
return 
else 
{ 
if (Strip) 
{ 


二 宇 )) 


k, word) 


# 消除 非 单词 字符 


# 截 去 前 置 的 撒 号 字符 
# 截 去 结尾 的 撤 号 字符 


key, lc_word, location, w, wordlist) 


# 可 接受 的 拼写 
# 可 能 的 异常 


strip._suffixes (lc_word, wordlist) 


for (w in wordlist) 


if (w in Dictionary) 


return 


} 


location = Verbose ? (FILENAME ":" FNR ":") 


if (lc_word in Exception) 


Exception[lc_word] = Exception[lc_word] 


else 


"\n" location word 
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Exception[lc word] = location word 
) 
} 
function strip_ suffixes (word, wordlist, ending, k, n, regexp)} 
{ E 
split{("", wordlist)} 


for (K = 1; k <= NOrderedSuffix; k++) 
{ 
regexp = OrderedSuffix[k]: 
if (match{word, regexp)) 
{ 
word = substr {word, 1, RSTART - 1) 
if {Replacement [regexp] == "") 
,wordlist[Iword] = 1 
else 
split (Replacement [regexp], ending) 
for {n in ending) 


{ 


if (ending{n] == "*\"\*") 
ending[n] = "" 
wordlist[Iword ending[n]] = 1 
} 
】 
break 
} 
} : 
} 
function swapl{la, i, j, temp).. 
{ 
temp = al[i] 
a[li] = al[j] 
a[j] = 


temp 


12.4.13 回顾 拼写 检查 程序 


UNIX 拼 写 检查 程序 第 一 版 所 使 用 的 就 是 我 们 在 本 章 一 开始 所 呈现 的 管道 处 理 。 在 文件 
The UNIX Heritage Society ( 注 7) 中 ， 可 以 找到 第 一 版 以 C 写成 的 UNIX 拼写 程序 ， 
此 即 为 1975 Version 6 UNIX 的 typo 命令 ， 约 为 350 行 的 C 代码 。 spell 首次 出 现 是 
在 1979 Version 7 UNIX 版本， 大 约 700 行 的 C 人 代码 。spell 在 1995 4.4 BSD-Lite 的 
源 代 码 版 本 中 壮 删 除 ， 推测 可 能 是 因为 商业 机 密 或 者 版 权 上 的 问题 。 | 


现代 的 OpenBSD spell 约 有 1 100 行 于 C 代 码 ， 在 它 的 三 个 基本 字典 中 各 有 30 多 个 单词 。 
注 7: 见 http://www.tuhs.org/, 
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GNU ispell 版 本 3.2 约 为 13500 行 的 C 代 码 , 及 GNU 的 aspell 版 本 0.60 则 约 为 29500 
行 的 C++ 与 C 代 码 。 这 两 个 程序 都 已 国际 化 ， 都 附 有 10 至 40 种 语言 的 字典 。ispell 
拥有 相当 大 的 英文 字典 , 约 80000 个 一 般 单词 , 搭配 3750 个 左右 美语 与 英语 的 变化 体 。 
aspe1ll 字典 就 更 大 了 :; 142000 个 英文 单词 ， 辅 以 4200 个 来 自 美国 、 英 国 与 加 拿 大 语 
系 的 变 体 。 


我 们 的 拼写 检查 程序 spel1.awk 是 一 个 真正 卓越 的 程序 ， 你 会 觉得 幸好 有 它 ， 如 果 你 
重新 以 其 他 程序 语言 编写 这 样 的 程序 ,就 会 了 解 awk 真 的 比较 好 。 就 如 同 Johnson 在 1975 
年 的 原始 spell 命令 ， 我 们 的 设计 与 实例 不 到 一 个 下 午 就 完成 。 


约 190 行 代码 ， 搭配 三 组 模式 /操作 的 单 命令 行程 序 与 11 个 函数 ， 它 能 做 到 传统 UNIX 
的 spell 能 做 的 所 有 事 ， 甚 至 更 多 : 


。 “具有 -verbose 选 项 ， 程 序 会 报告 拼写 异常 的 位 置信 息 。 

。 “用 户 可 控制 字典 ,让 程序 可 立即 应 用 于 复杂 的 技术 文件 及 以 英文 以 外 的 语言 所 写成 
的 文章 上 。 

。 ”用 户 可 定义 后 绎 列表 , 有 助 于 拼写 检查 国际 化 , 以 及 提供 用 户 控制 后 绥 缩 减 , 就 像 
所 有 平台 都 提供 的 一 些 拼写 检查 程序 一 样 。 


。 ”所 有 相关 联 的 字典 与 后 级 文件 都 为 简单 的 文本 文件 , 可 使 用 任何 文本 编辑 器 修改 ， 
且 大 部 分 UNIX 文 本 工具 都 能 处 理 。 部 分 拼写 检查 程序 仍 保留 二 进 制 形式 的 字典 文 
件 ， 这 会 使 单词 列表 难以 检阅 、 维 护 与 更 新 ， 也 很 难 再 用 作 其 他 目的 。 


。 ”主要 依赖 字符 集 的 是 , 这 是 低 于 128 以 下 的 ASCII 上 顺序 的 初始 化 假设 。 尽管 不 再 支 
持 IBM 大 型 主机 EBCDIC，European 8-bit 字 符 集 也 不 会 带 来 什么 问题 , 其 至 以 多 
字 节 UTF-8 编 码 的 两 百 万 字符 Unicode 字 集 也 可 适当 处 理 它 , 但 要 确切 认 知 与 删除 
非 ASCII Unicode 的 标点 符号 仍 需 多 费心 思 。 由 于 多 字 节 字符 集 的 复杂 性 , 是 可 能 
在 任何 地 方 都 需要 用 到 , 这 部 分 的 功能 应 另 以 独立 工具 实现 ,作为 使 用 spel1 .awk 
前 的 预先 过 滤 程 序 。 | 

。 ”输出 排序 的 顺序 ,对 某 些 语 言 来 说 是 个 复杂 议题 ,这 个 操作 完全 由 sort 命 令 决定 ， 
.而 该 命令 又 受 当前 环境 的 locale 设 置 所 影响 。 最 好 的 情况 就 是 : 某 个 独立 工具 本 地 
化 处 理 排序 的 复杂 问题 , 这 么 一 来 其 他 软件 , 包括 我 们 的 程序 , 便 无 须 理会 这 个 争 
议 了 。 这 也 就 是 我 们 在 1.2 节 里 所 说 的 :“ 让 别人 去 做 困难 的 部 分 "。 ， 

。 “虽然 是 以 解释 式 语言 编写 ， 我 们 的 程序 算是 相当 快 的 了 。 在 2 GHz Pentium 4 的 
工作 站 上 ， 使 用 mawk ， 它 只 需要 一 秒 便 能 检查 本 书 所 有 文件 的 拼写 ， 时 间 仅 为 
OpenBSD 的 spell 的 1.3 们 及 GNU ipsel11 的 2.0 倍 。 


以 执行 上 的 概况 来 看 ( 见 12.4.14 证 ), 载 和 字典 需 花费 总 时 间 的 5%, 而 每 15 个 单 
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词 就 有 一 个 在 字典 上 找 不 到 。 加 入 -strip 选 项 会 增加 约 25% 的 执行 期 及 减少 相同 
量 的 输出 大 小 ,每 70 个 单词 里 有 一 个 通过 strip_suffixes() 里 的 match() 测 试 。 


。 ”后缀 支持 在 这 190 行 的 代码 里 约 占 去 90, 所 以 我 们 可 以 说 , 写 这 个 方便 好 用 的 多 语 
言 拼写 检查 程序 大 约 只 用 了 100 行 的 awk 代码 。 


上 述 特 性 列表 以 及 我 们 的 程序 ， 最 明显 缺乏 的 功能 就 是 截 去 文件 标记 (markup)， 有些 
拼写 检查 提供 此 功能 。 我 们 故意 不 这 么 做 ,是 因为 它 完全 违背 了 UNIX 的 传统 : 一 个 (小 ) 
工具 只 做 一 件 事 。 标 记 删 除 其 实 是 很 有 用 的 ， 所 以 值得 另 写 一 个 独立 的 过 滤 程 序 ， 例 如 
dehtml、 deroff、 desgml、 detex 以 及 dexml。 这 之 中 , 只 有 deroff 在 大 部 分 UNIX 
系统 下 找 得 到 ， 不 过 其 他 的 实现 也 只 要 几 行 awk 就 办 得 到 。 ' 


撒 开 三 个 简单 的 substr () 调 用 不 谈 ， 我 们 的 程序 另 缺 的 就 是 独立 字符 的 处 理 。 在 C 里 
这 类 处 理 的 需求 ， 很 多 其 他 语言 也 是 ， 正 是 主要 的 bug 来 源 。 


该 程序 只 剩 这 些 事 待 完成 : 累积 适当 数量 的 字典 集 与 其 他 语言 的 后 组 列表 ,通过 Shell 脚 
本 包装 (wrapper) 的 提供 , 让 它 的 用 户 界 面 看 起 来 更 像 传 统 的 UNIX 程 序 , 还 有 编写 手 
册页 。 虽然 我 们 在 这 里 没有 将 它们 呈现 出 来 , 不 过 本 书 范例 程序 已 提供 包装 程序 与 手册 
页 。 ' | 


12.4.14 awk 程序 的 性 能 


我 们 以 几 个 与 awk 程序 性 能 有 关 的 评论 作 总 结 。awk 程 序 就 像 其 他 脚本 语言 , 先 被 编译 
为 简洁 的 内 部 表示 ， 再 将 该 表示 在 执行 期 时 ， 通 过 小 型 虚拟 机 器 (virtual machine) 解 
释 。 内 置 函 数 是 以 底层 实现 语言 写成 , 现行 的 C 为 通用 版 本 , 执行 速度 等 同 于 本 地 软件 
的 速度 。 2 


程序 的 性 能 不 单单 指 计算 机 上 的 时 间 ， 人 们 花 在 上 头 的 时 间 也 算 。 如 果 是 花 一 个 小 时 ， 
以 awk 写 一 个 只 要 执行 几 秒 的 程序 , 相对 于 以 编译 语言 花 数 个 小 时 编写 、 调试 所 写成 的 
相同 程序 ,结果 只 是 少 几 秒 的 执行 期 ,那么 人 们 花 在 上 头 的 时 间 就 是 性 能 的 重点 考虑 了 。 
对 许多 软件 工具 而 言 ，awk 赢 在 它 有 大 有 量 的 手段 与 方法 足以 完成 任务 。 


传统 像 是 Fortran 与 C 这 类 的 编译 语言 ， 内 层 代码 会 与 底层 机 器 语言 息息相关 ， 程 序 设 
计 老 手 们 马上 感觉 得 到 熟 优 熟 劣 。 算 法 与 内 存 操作 的 数量 、 循 环 伐 套 设计 有 多 深 ， 都 为 
重点 , 且 易 于 计算 , 并 与 执行 期 直接 相关 。 以 数字 方面 的 程序 为 例 , 一 般 法 则 是 代码 的 
10%， 耗 费 90% 的 执行 期 : 而 这 10% 的 代码 就 称 为 热点 (hot spot) 。 像 是 将 最 内 部 循 
” 环 的 常用 表达 式 拉 出 来 , 还 有 重新 排列 运算 以 符合 存储 配置 等 , 这些 最 佳 化 的 操作 ， 有 
时 可 大 大 促进 执行 时 间 。 然 而 ， 高 级 语言 、 使 用 大 量 函 数 调 用 的 语言 (例如 Lisp， 它 的 
每 条 语句 都 是 函数 ) 或 解释 式 语 言 ， 它 们 的 执行 期 都 较 难 以 估算 ,也 很 难 识别 出 它们 的 
热点 。 
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做 许多 模式 匹配 的 awk 程序 , 通常 也 被 该 运算 的 复杂 度 所 限制 , 其 完全 是 以 原始 的 速度 
执行 。 这 类 程序 很 少 能 够 通过 编译 程序 , 像 C 或 C++ 的 重 写 ， 再 做 点 什么 改善 。 我 们 所 
提 及 的 三 种 awk 实例 , 都 各 自 独立 编写 而 成 , 且 对 于 特定 语句 , 也 有 完全 不 同 的 执行 时 
间 。 


由 于 我 们 使 用 awk 写 了 很 多 软体 工具 ， 有 部 分 用 以 处 理 动 辑 以 GB 计 的 数据 ,执行 期 性 
能 对 我 们 来 说 有 时 是 相当 重要 的 。 几 年 前 ,我 们 之 中 有 人 (NHFB) 想 做 的 是 pawk 
( 注 8) ,; 它 其 实 是 最 小 型 的 实例 , nawk 的 探测 版 。pawk 会 报告 语句 计数 与 时 间 。 我 们 
其 他 人 〈AR) ,也 自动 自发 将 娄 似 的 语句 计数 支持 加 入 到 GNU 的 gawk, 因此 , pgawk 
已 自 3.1.0 版 开始 成 为 标准 配备 。pgawk 会 产生 输出 探测 (profile) 至 awkprof .out， 
再 搭配 带 有 语句 执行 计数 评注 的 程序 列表 。 计数 很 快 便 会 识别 出 热点 。 计 数 为 零 (或 空 ) 
即 表示 代码 完全 未 执行 ， 所 以 输出 探测 还 可 以 当 作 独 试 涵盖 范围 (test coverage) 的 报 
告 。 当 测试 文件 是 用 以 验证 所 有 程序 语句 是 否 在 检测 期 间 都 被 执行 时 , 这 样 的 报告 就 很 
重要 了 : 潜藏 于 代码 中 的 bug 可 能 很 少 或 甚至 从 未 执行 过 。 


精准 的 执行 时 间 是 很 难 取 得 的 , 因为 典型 的 CPU 计时 器 (timer) 仅 能 得 到 每 种 60 到 100 
次 的 核对 , 这 在 GHz 处理 器 的 时 代 完 全 不 够 用 。 幸 好 ， 已 有 部 分 UNIX 系统 提供 低 成 本 
的 十 亿 分 之 一 秒 解析 计时 器 ， 而 pawk 在 这 些 平台 上 都 使 用 它们 。 


12.5 小 结 


原始 的 拼写 检查 维 型 ,展现 了 UNIX 软 件 工 具 应 用 的 优雅 与 能 力 。 只 花 一 个 下 午 的 时 间 ， 
就 能 做 出 这 样 一 个 方便 又 有 用 的 单一 目的 程序 。 在 体验 过 以 Shell 写成 的 维 型 后 ， 再 以 
C 重 写 一 份 在 线 版 本 也 是 常 有 的 事 。 


私有 字典 的 使 用 , 是 UNIX spell 里 一 个 强 而 有 力 的 功能 。 虽 然 UNIX 环 境 后 台 下 的 locale 
设置 ， 很 可 能 导出 奇怪 的 行为 模式 ， 但 字典 的 使 用 仍 有 其 价值 ， 事实 上 本 书 的 各 个 章节 ， 
我 们 都 建立 了 私有 字典 ， 以 便 管 理 拼 写 检查 的 工作 。 


可 自由 取 用 的 ispell 与 aspell 程 序 相当 大 , 功能 也 很 强 ， 但 却 缺乏 一 些 让 批 处 理 模式 
更 好 用 的 功能 。 我 们 展示 过 如 何 封装 简单 的 Shell 脚 本 , 所 以 我 们 可 以 解决 这 样 的 不 足 ， 
让 程序 更 适 于 我 们 的 需求 。 此 是 Shell 脚本 的 最 传统 用 法 : 取 一 个 几乎 能 完成 所 有 所 需 
工作 的 程序 ,然后 稍微 修改 它 的 结果 ， 以 完成 剩 下 的 工作 。 这 也 符合 我 们 在 软件 工具 设 
计 原 则 里 所 说 的 : “让 别人 完成 困难 的 部 分 ”。 


最 后 ，awk 拼写 检查 程序 完美 展现 了 该 语言 的 优雅 与 强大 功能 。 就 在 某 个 午后 ， NHFB 
完成 了 低 于 200 行 ， 可 以 (已 经 是 ) 正式 信用 于 中 写 检查 的 程序 。 





注 8: 可 在 Pttp: 局 出 7 utah.edu/pub/pawk/ 取得 。 
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进程 (process ) 指 的 是 执行 中 程序 的 一 个 实例 (instance) 。 新 进程 由 fork() 与 execve() 
等 系统 调用 所 起 始 , 然后 执行 , 直到 它们 下 达 exit () 系统 调用 为 止 。 系统 调用 fork () 
与 execve() 的 处 理 相当 复杂 ， 且 不 是 本 书 所 要 说 明 的 范畴 ， 如 果 你 有 兴趣 ， 可 以 参考 
它们 的 网 页 。 ”> 和 | 


UNIX 系统 都 支持 多 进程 。 虽然 计 算 机 看 来 像 是 一 次 做 了 很 多 事 , 但 除非 是 它 拥有 多 个 
CPU ,否则 这 只 是 错觉 。 事 实 上 , 每 个 进程 仅 容 许 在 一 个 极 短 的 期 间 执行 , 我 们 称 为 时 
间 片 段 (time slice) ， 之 后 进程 会 先 暂 时 搁置 ， 让 其 他 等 待 中 的 进程 执行 。 时 间 片 段 极 
短 , 通常 只 有 几 微 秒 ， 所 以 人 们 很 少 感觉 得 到 进程 将 控制 权 交 回 kernel， 再 交 给 另 一 个 
进程 的 这 种 文本 切换 (context switches)。 进程 本 身 不 管 本 文 切换 这 件 事 ， 也 没有 必要 
在 程序 里 撰写 撤回 控制 权 予 操作 系统 的 处 理 。 


操作 系统 内 核 里 , 称 为 调度 器 (scheduler) 的 部 分 负责 管理 进程 的 执行 。 当 出 现 多 CPU 
时 ， 调度 器 会 斌 着 使 用 所 有 CPU 处 理工 作 负 载 。 用 户 除了 觉得 响应 这 度 的 改善 之 外 ， 多 
半 不 会 查 觉 有 何不 同 。 


进程 会 被 指定 优先 权 , 这 么 一 来 ， 有 时 间 考 虑 的 进 六 能 比 东 间 村 的 渤 各 多 要 行 。nice 
与 renice 俞 令 即 用 于 调整 进程 的 优先 权 ， :…;: ; 


在 任何 瞬间 ， 等 待 执 行 之 进程 的 平均 数 ， CL 最 简单 的 
uptime 命令 便 能 显示 生生 和 直 四 定 各 证 








$ uptime 显示 开机 至 今 的 了 时间 、 用 户 数 ， 及 平 志 负 狐 ee 
J 51pm up 298 J 15: 42， ,3 Lsery, load aVerege: 3. SE. 3 50， 3. 55 


由 于 平均 负载 会 一 直 变 化 ，uptime 会 回报 三 个 平均 时 间 舍 算 值 。 分 别 为 最 后 分钟、 
五 分 钟 及 十 五 分 钟 的 信 竺 值 。 当 平均 负载 持 续 地 超出 可 用 CPU 的 承载 时 ,表示 系统 工作 
已 超 出 它 所 能 负 闪 的 了 ， 上 有 网 应 可 能 会 陷入 交 沸 汞 前 的 交大 5 “< 


0 
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讨论 操作 系统 的 书 , 对 进程 与 调度 器 有 较 深 入 的 探讨 , 在 本 书 中 讲 得 太 深入 会 有 些 文 不 
对 题 ， 对 大 部 分 用 户 而 言 ， 也 没有 必要 。 所 以 我 们 在 本 章 ， 只 说 明 如 何 建立 进程 、 列 出 
进程 ， 及 删除 进程 。 除 此 之 外 , 还 会 介绍 将 信和 号 传递 给 进程 的 方式 ， 及 如 何 监控 进程 的 
执行 。 


13.1 进程 建立 
UNIX 对 计算 机 运算 世界 最 大 的 贡献 ， 就 是 能 够 轻易 地 建立 进程 。 此 举 有 助 于 用 户 为 


大 的 工作 先 撰写 小 型 程序 处 理 各 个 部 分 , 再 将 它们 整合 完成 整个 工作 。 由 于 程序 设计 的 
复杂 度 与 日 俱 增 ， 以 小 型 程序 的 方式 处 理会 更 好 写 、 更 好 除 虫 ， 也 更 易于 了 解 。 


很 多 程序 都 由 Shell 启动 : 每 个 命令 行 里 的 第 一 个 单词 是 识别 要 执行 的 程序 。 一 个 命令 

Shell 所 起 始 每 个 进程 ， 都 会 以 下 列 保证 事项 启动 : , 

进程 具有 一 个 内 核 本 文 (keriiel context) :在 内 核 里 的 数据 结构 ,会 记录 与 进程 相 
关 的 信息 ， 让 内 核 便于 管理 与 控制 进程 的 执行 。 

。 ”进程 拥有 一 个 私 用 的 (private)、 被 保护 的 (protected) 虚拟 地 址 空间 ， 它 可 能 就 
像 机 器 可 定 址 空间 闭 么 大 。 不 过 ; 其 他 资源 的 限制 , 像 是 实例 内 存 与 外 部 储存 设备 
上 的 swap 空间 所 组 合 的 大 小 ， 其 他 执行 中 工作 的 大 小 ,或 是 系统 调 校 参数 的 本 地 
端 设 置 ,都 会 加 诸 进程 执行 上 的 限制 。 站 

。 ”三 个 文件 描述 代码 (标准 输入 、 标 准 输出 ,与 标准 错误 输出 ) 都 已 开启 , 且 立 即 可 
用 。 

。 ”起 始 于 交谈 模式 Shell 的 进程 , 会 拥有 一 个 控制 终端 机 (controlling terminal) ,其 
扮演 三 个 标准 文件 数据 流 的 黄 认 来 源 处 与 目的 地 ,控制 终端 机 是 让 用 户 可 将 信号 传 
送 给 进程 ， 这 部 分 主题 在 稍 后 13.3 节 里 将 会 介绍 。 

。 ”命令 行 参 数 里 的 通 配 字符 会 被 展开 。- 


。 ”内 存 的 一 个 环境 变量 区 域 会 存在 , 包含 具有 键 与 值 ea 可 
通过 程序 库 调用 取得 (在 C 里 ， 为 getenv())。 


这 些 保证 没有 任何 差别 待遇 : 所 有 执行 于 相同 优先 权 层 级 的 进程 都 一 视 同仁 , 且 进 程 可 
以 由 任何 程序 写成 。 


私有 地 址 空间 (private address space) 下 可 确保 进程 不 受 其 他 进程 或 内 核 干扰 。 未 提供 
这 样 保障 的 操作 系统 很 容易 出 错 。 


这 三 个 已 开启 的 文件 ， 对 大 部 分 的 程序 来 说 已 经 够 用 ， 可 以 使 用 它们 而 无 需 烦恼 文件 开 
启 与 关闭 的 操作 ， 也 不 需要 知道 任何 文件 名 语法 或 文件 系统 。 
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由 Shell 展开 的 通 配 字符 会 免除 程序 的 很 多 负担 ， 也 提供 了 统一 性 的 命令 行 处 理 。 


环境 空间 (environment space) 是 除了 命令 行 与 输入 文件 之 外 ， 可 提供 信息 给 给 进程 的 另 
一 种 方式 。 


13.2 进程 列表 


列 出 进程 中 最 重要 的 命令 便 是 进程 状态 (process status) 命令 ，ps。 长 久 以 来 ，ps 的 
形式 发 展 出 主要 的 两 种 ，System YV 式 与 BSD 式 。 很 多 系统 两 者 都 提供 ， 有 些 则 是 择 一 
选择 性 地 提供 。 在 Sun Solaris 系统 下 : 
S /bin/ps < ”System V 式 的 进程 状态 
PID TTY TIME CMD i 
2659 pts/60 0:00 ps 


5026 pts/60 0:02 ksh 
12369 pts/92 0:02 bash 


$ /usr/ucb/ps .BSD 式 的 进程 状态 
PID TT . S TIME COMMAND | 
2660 pts/60 ©O. 0:00 /usr/ucb/ps 
5026 pts/60 S 0:01 /bin/ksh 

12369 pts/92  S 0:02 /usr/1loéal/bin/bash 


未 提供 命令 行 选项 ， 它们 的 输出 就 会 很 相似 ， 只 是 BSD 式 的 细节 较 多 。 这 里 的 输出 ， 可 
以 限定 为 那些 与 引用 (调用 ) 者 的 进程 具有 相同 用 户 ID 及 相同 控制 终端 的 进程 。 


ps 是 与 1s 的 文件 列 出 命令 很 像 ， 也 提供 相当 多 的 选项 , . 且 在 UNIX 各 种 平台 上 都 各 有 
不 同 版 本 。 以 1 s 而 言 ，-1 选项 输出 宛 长 式 数据 ， 是 常见 用 法 。 如 果 要 取得 ps 的 元 长 
输出 ， 则 需要 其 他 选项 ， 在 System V 形式 下 : 


$ ps -efl System V 风 格 | 
FS UID PID PPID .C PRI NI ADDR ‘SZ'WCHAN ‘STIME ‘TTY.. ‘TIME CMD 
19 T root .0 0.0 0 SY 2 Qn 9 Dec 27 3 0:00 .sched 
8Sxroot 1 00 41 20 ? 106 ? Dec 27 3 9:53 /etc/init - 
19 S.root 2 0 0 0 SY ? 0 ? Dec 27 2? 0:18 pageout 
19 S root 3 00 .0SY : .? 0 _? Dec 27 ? 2852;26 fsflush 
在 BSD 形式 下 ， 则 为 : 
$ ps aux | BSD 风格 | 
USER ‘PID %CPU $MEM SZ RSS TT S START ”TIME COMMAND 
root 3 0.4 0.0 0 0 ? S Dec 27 2852:28 fsflush 


smith 13680 0.1 0.2 1664 1320 pts/250 15:03:45 0:00 ps aux 
jones 25268 0.1 2.02093619376 pts/245 Mar 22 29:56 emacs -bg ivory 
brown 26519 0.0 0.3 5424 2944 .? SS Apr 19 2:05 xterm -name thesis 
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这 两 种 形式 都 允许 结合 选项 字母 一 起 执行 ,而 BSD 形 式 还 允许 去 除 选 项 连 字号 。 这 两 个 
例子 中 ， 为 了 符合 解说 页 面 ， 我 们 都 适度 地 去 除了 过 多 的 空白 。 


在 这 两 种 类 型 上 , 部 分 设计 并 不 恰当 ， 有 时 信息 太 多 , 但 显示 的 空间 却 太 少 : 进程 起 始 
日 期 的 缩写 格式 各 有 不 同 , 而 最 后 一 栏 的 命令 有 时 会 被 截断 , 且 显 示 的 栏 位 值 有 时 也 会 
全 挤 在 一 起 。 后 者 令 我 们 在 过 滤 ps 的 输出 时 变 得 很 困难 。 


USER 与 UID 栏 为 进程 拥有 者 : 当 你 发 现 现 进程 基 在 系统 上 不 动 时 ， 这 会 会 是 关键 信息 。 


PID 为 进程 ID 值 (process ID )， 此 数字 是 定义 进程 的 唯一 值 。 在 Shell 中 ， 该 数字 可 以 
$$ 表示 ,我们 在 其 他 章节 中 曾 用 它 产生 暂时 性 文件 名 。 进 程 ID 的 指定 自 零 起 始 ， 每 遇 
到 新 的 进程 便 加 值 , 直至 系统 停止 。 在 到 达 最 大 可 表示 的 整数 值 时 ,进程 编号 会 再 从 零 
开始 , 但 避 开 已 被 其 他 进程 使 用 的 值 。 传统 的 单一 用 户 系 统 可 能 只 有 少数 几 个 活动 中 的 
进程 ， 但 大 型 的 多 用 户 系统 可 能 就 拥有 数 以 千 计 的 进程 了 。 


PPID 为 父 进程 ID (parent process ID) 值 : 指 的 是 建立 此 进程 的 那个 进程 编号 。 除 了 
第 一 个 进程 外 , 每 个 进程 都 有 父 进 程 并 会 拥有 零 至 多 个 子 进程 , 所 以 进程 的 形式 为 树 状 
结构 。 进 程 编号 0 通常 被 称 为 kernel、sched, 或 swapper， 而 且 在 某 些 系统 上 并 不 会 
显示 在 ps 的 输出 结果 中 。 进 程 编号 1 比较 特殊 : 称 为 init ， 可 参考 iit(8) 的 使 用 手 
册 。 父 进程 过 早 消 失 (die) 的 进程 ， 会 被 重新 指定 其 新 的 父 进程 为 init。 系 统 在 正常 
关机 下 ， 进程 的 删除 是 以 由 大 至 小 的 进程 人 依次 执行 ， 直到 只 剩 下 init 为 止 ; 当 它 结 
束 时 ， 系 统 便 终止 。 


ps 输出 的 顺序 不 保证 有 一 一 定 的 规则 ， 且 由 于 进程 的 列表 是 持续 地 变动 的 ， 每 次 执行 时 都 
会 看 到 不 同 的 输出 。 


由 于 进程 列表 是 动态 的 ,许多 用 户 会 想 要 持续 观察 类 似 ps 这 样 的 文字 输出 更 新 状态 ,或 
以 图 形 呈现 。 很 多 工具 程序 提供 显示 这 类 信息 , 但 没有 共通 可 用 的 标准 工具 。 最 通用 的 
应 是 top 了 , 这 是 现行 许多 UNIX 版 本 里 的 标准 工具 ( 注 1)。 我 们 认为 这 个 工具 和 GNU 
的 tar 一 样 重要 , 因此 如 果 发 现 新 系统 不 提供 此 工具 , 我 们 就 会 立即 安装 一 个 。 在 大 部 
分 系统 上 ,top 必须 详 熟 内 核 数据 结构 的 相关 知识 , 且 当 操作 系统 升级 时 ， 它 也 必须 更 
新 。top (类 似 ps) 是 少数 几 个 需 特殊 权限 才能 执行 的 程序 ， 其 些 系 统 上 ， 会 以 setuid 
为 root 的 方式 变通 行事 。 | 


此 处 为 top 的 输出 快照 (snapshot), 这 里 显示 的 多 处 理 器 计算 机 服务 器 还 不 算 太 忙 碌 : 


注 1: 可 自 fip:/ftp.groupsys.com/pub/top 下 载 。 另 一 个 仅 GNU/Linux 系统 适用 的 实例 ， 可 参 
者 htip://procps.sourceforge.net/。 


www.TopSage.com 


进程 367 | 


$ top 显示 前 几 名 消耗 资源 的 进程 

load averages: 5.28, 4.74, 4.59 15:42:00 
322 processes: 295 sleeping, 4 running, 12 zombie, 9 stopped, 2 on cpu 
CPU gtates: 0.0% idle, 95.9% user, 4.1% kernel, 0.0% iowait,,.0.0% swap 
Memory: 2048M real, 88M free, 1916M swap in use, 8090M swap free 


PID USERNAME THR PRI NICE SIZE RES STATE TIME CPU COMMAND 


2518 jones 1 0 0 506M 505M run 44:43 33,95% Macaulay2 

1111 owens 1 0 19 21M 21M run 87:19 24.04% ocDom 

23813 smith 1 0 19 184M 184M cpu/0 768:57 20.39% mserver 
1 1 


25389 brown 19 30M 23M run 184:22.: 1.07% netscape 

默认 状态 下 ，top 会 在 列表 顶端 显示 CPU 耗 用 最 多 的 进程 ， 这 通常 也 就 是 你 想 看 的 那 
个 。 不 过 , top 还 接受 键盘 输入 , 控制 排序 顺序 、 限 定 显示 你 感 兴趣 者 等 等 , 只 要 在 top 
通信 期 (session) 下 输入 type ?， 即 可 得 知 你 的 top 版 本 提供 了 哪些 用 法 。 


其 他 一 些 列 出 进程 ， 或 显示 各 类 系统 负载 状态 的 好 用 命令 ， 我 们 呈现 于 表 13-1。 
表 13-1: 好 用 的 系统 负载 命令 
系统 i 命 仿 


所 有 系统 iostat, netstat, nfsstat, sar, uptime, vmstat、 w, xcpustate 注 、 
xload, 与 xperfmon 


Apple Mac OS X pstat | 
BSD pstat 与 systat 


GNU/Linux procinfo 

HP Alpha OSF/1 vmubc 

IBM AIX monitor 

SGI IRIX gr_osview 与 osview 

Sun Solaris mpstat、 perfmeter, proctool, prstat, ptree§S sdtperfmeter 


注 : 可 自 ftp://ftp.cs.toronto.edu/pub/jidd/xcpustate/ 取 得 。 


大 部 分 情况 下 , Shell 在 处 理 下 一 个 命令 之 前 会 等 待 一 进程 结束 。 不 过 只 要 在 命令 最 后 加 
入 & 字 符 , 而 非 分 号 或 换行 符号 , 便 能 将 进程 放 在 后 台中 执行 : 我 们 在 8.2 节 的 build- 
all 脚本 里 使 用 过 此 功能 。wait 命令 可 用 以 等 待 某 个 特定 进程 完成 ， 在 不 加 任何 参数 
的 情况 下 ， 则 为 等 待 所 有 后 台 进 程 的 完成 。 


虽然 本 书 大 多 略 过 Shell 的 交谈 模式 功能 不 提 ， 但 这 里 还 是 要 告诉 你 : bg、fg、jobs， 
以 及 wait 都 为 处 理 于 目前 Shell 下 所 建立 的 执行 中 进程 的 Shell 命令 。 
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有 4 组 键盘 字符 可 用 以 中 斯 前 台 进 程 (foreground processes)。 这 些 字符 都 可 通过 stty 
命令 选项 而 设置 ,通常 为 Ctrl-C (intr; 杀 除 ) 、Ctrl-Y (dsusp: 暂时 搁置 ， 直 到 输入 
更 新 为 止 ) 、Ctrl-Z (susp: 暂时 搁置 ), 与 Ctrl-\ (Guit: 以 核心 转 储 (core dump ) 方 
式 杀 除 ) 。 


例 13-1 呈现 的 是 简易 top 实例 的 命令 。/bin/sh - 选项 所 提出 的 安全 性 议题 ， 及 IFS 
的 设置 (为 换行 字符 - 空格 字符 一 定位 字符 ) 与 PATH 指定 ,已 在 8.1 节 作 过 说 明 。 我 
们 需要 BSD 式 的 ps， 因 为 它 提供 的 %CPU 栏 ， 可 决定 显示 顺序 ， 因 此 设置 PATH 先 寻 
找 该 版 本 。PATH 设 置 在 我 们 所 有 的 系统 下 几乎 都 能 运行 ， 只 有 一 个 例外 (SGI IRIX 缺 
乏 BSD 式 的 ps 命令 )。 到 


例 13-1: 简化 的 top 版 本 
#!1 /bin/sh - 


# 持续 执行 ps 命令 ， 3 和 
# 每 次 显示 之 间 ， 只 作 短 时 间 的 暂停 


语法 : 
simple-top 


六 大 厢 


IFS=" 


# 自 订 PATH， 以 先 取 得 BSD 式 的 ps 
PATH=/usr/ucb: /usr/bin: /bin 
export PATH 


HEADFLAGS="*-n 20" 
PSFLAGS=aux 

SLEEPFLAGS=5 
SORTFLAGS='-k3nr -kl,l1 -k2n’' 


HEADER=" “ps S$PSFLAGS | head -n 1°" 


while true 
do 
clear 
uptime 
” echo "$HEADER" 
‘ps SPSFLAGS | | 
SeQ -e ld .1.: 
Sort $SORTFLAGS 二 
head $HEADFLAGS 
sleep $SLEEPFLAGS 
done 


我 们 将 命令 选项 储存 在 HEADPLAGS. PSFLAGS. SLEEPFLAGS 与 SORTFLAGS， 以 方便 某 
些 特定 站 台 客 户 化 。 


simple-top 输 出 的 解释 性 标 头 相当 有 用 , 但 由 于 它 在 ps 实例 之 间 有 些 差 异 , 所 以 我 们 
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不 在 脚本 里 把 它 写 死 。 取 而 代 之 的 是 ;我们 只 调用 ps 一 次 ， 然 后 把 它 储存 在 HEADER 
变量 里 。 


程序 其 余 的 部 分 就 是 无 穷 循环 了 , 可 使 用 我 们 稍 早 提 过 的 键盘 字符 中 断 它 。 在 每 个 循环 
重复 起 始 处 的 clear 命令 会 使 用 TERM 环境 变量 的 设置 ， 以 决定 它 要 传送 至 标准 输出 ， 
清除 屏幕 画面 的 转 义 符 ， 将 游标 留 在 左上 和 角 。uptime 回报 平均 负载 ，echo 则 提供 每 
栏 标 头 。 管 道 过 滤 ps 的 输出 使 用 sed 删除 标 头 行 ， 再 依次 以 CPU 使 用 量 、username， 
与 进程 ID 排序 最 后 的 输出 结果 , 然后 仅 显 示 前 20 行 。 循 环 里 最 后 的 sleep 命令 会 产生 
极 短 的 延迟 , 不 过 这 和 循环 重复 操作 比 起 来 仍 是 较 长 的 , 这 人 么 一 来 此 脚本 对 系统 负载 的 
影响 才能 达到 最 小 。 


有 时 ， 你 会 想 知 道 谁 在 使 用 你 的 系统 ， 有 多 少 与 哪些 进程 正 执行 ， 而 不 要 ps 元 长 输出 
所 提供 的 其 他 额外 细节 。 例 13-2 里 的 puser 脚本 即 可 用 以 产生 此 类 报告 : 


s puser 显示 用 户 ， 及 属于 他 们 的 进程 
albert -tcsh 

/etc/sshd 

/bin/sh 

/bin/ps 

/usr/bin/ssh 

xload 

/usr/lib/nfs/statd 
/etc/sshd 
/usr/lib/ssh/sshd 
/usr/sadm/lib/smc/bin/smcboot 
/usr/lib/saf/ttymon 
/etc/init 
/usr/lib/autofs/automountd 
/usr/1lib/dmi/dmispd 


daemon 
root 


上 上 上 Im 全 Fw 


心 。 


bash 
2 /usr/bin/ssh 
2 xterm 


victoria 


报告 以 usernarhe 排序 ， 为 了 不 致 于 太 过 混乱 ， 并 提升 可 读 性 ， 只 有 在 username 有 变动 
时 才 显 示 username 值 。 SI 


例 13-2: puser 脚本 
#! /bin/sh - 
# 显示 用 户 ， 及 其 活动 中 的 进程 数 与 进程 名 称 ， 

可 选择 性 地 限制 显示 某 些 特定 用 户 (egrep (1) 


username 样式 )。 


说 法 : 


# 
## 
## 
## 
## puser [ userl user2 ... ] 


IFS=!’ 
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PATH=/usr/local/bin:/usr/bin:/bin 
export PATH 


EGREPFLAGS= 
while test $# -gt 0 
do 
if test -z "$EGREPFLAGS" 
then 
EGREPFLAGS="$1" 
else 
EGREPFLAGS=" $EGREPFLAGS|$1" 
,£i ee 
Shift 
done 


if test -2z "S$EGREPFLAGS" 
then 
EGREPFLAGS="." 
else 
EGREPFLAGS="^ *($EGREPFLAGS) " 
fi 


case "‘uname -s‘" in 


*BSD | Darwin) PSFLAGS="-a -e -0 user,ucomm -x" ;; 
i / PSFLAGS="-e -oO user,comm" ;; 
esac 
ps $PSFLAGS | 
sed -e 1d | 


EGREP_OPTIONS= egrep "S$EGREPFLAGS" | 
sort -b -kl,1 -k2,2 | 


uniq -c | 
sort -b -k2,2 -klnr,1 -k3,3 | 
awk '{ 
user ss (LAST Ss iS2) 3 
LAST = $2 


printf ("%-15s\t%2d\t%s\n", user, $1, $3) 
} 让 


在 一 贯 熟 悉 的 前 置 处 理 后 ， puser 脚 本 开始 利用 循环 搜集 可 选用 的 命令 行 参 数 , 将 之 传 
至 EGREPFLAGS 变量 ， 使 用 垂直 线 分 隔 符 表 示 交 替 至 egrep。 循 环 内 容 里 的 if 语句 处 
理 初始 为 空 字符 串 的 情况 ， 以 避免 产生 空 的 egrep 样式 。 


参数 搜集 循环 完成 后 ， 我 们 会 检查 EGREPFLAGS: 如 果 它 为 空 ， 则 重新 指定 它 为 符合 任 
何 的 样式 。 否 则 , 改 为 只 对 行 的 起 始 处 进行 样式 比 对 ,并 要 求 结尾 加 上 空格 字符 ， 以 避 
免 因 username 开头 字符 相同 而 出 现 错误 符合 ， 例 如 jon 与 jones。 


case 语 句 是 在 处 理 ps 选 项 的 实例 差异 。 我 们 希望 输出 形式 为 只 显示 两 个 值 : username 
与 命令 名 称 。BSD 系统 与 BSD 扩展 的 Mac OS X (Darwin) 系统 要 求 的 选项 与 其 他 所 
有 我 们 测试 过 的 系统 有 些许 不 同 。 
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以 下 7 阶段 的 管道 处 理 报告 的 准备 工作 ; 
1. 自 ps 产生 的 输出 如 下 : 


USER COMMAND 

root sched 

root /etc/init 

root /usr/lib/nfs/nfsd 


jones dtfile 3 
daemon /usr/lib/nfs/statd 


2. ”sed 命令 删除 初始 的 标 头 行 。 

3 egrep 命 令 选 定 要 被 显示 的 username。 我 们 会 清除 EGREP_OPTIONS 环 境 变 量 , 以 
避免 在 不 同 的 GNU egrep 版 本 解 译 方式 的 冲突 。 

4. ”sort 先 以 username， 再 以 进程 ， 进 行 排序 数据 。 

5. ”unig 命令 附加 前 置 重复 行 的 计数 ， 并 删除 重复 部 分 。 


6. 第 二 个 sort 步骤 ， 再 作 一 次 数据 排序 。 这 次 先 以 username， 再 以 由 大 而 小 的 计 
数 ， 最 后 才 是 进程 名 称 作 排序 。 


7 awk 命令 将 数据 格式 化 为 整齐 的 栏 位 ， 并 删除 重复 的 username。 


13.3 ”进程 控制 与 删除 ” 

正常 行为 的 进程 ， 最终 会 如 常 地 完成 工作 ， 再 以 exit () 系统 调用 而 终止 。 有 时 需要 可 
早 结束 进程 , 可 能 是 因为 它 一 开始 拢 行 时 便 有 误 , 也 可 能 是 需要 你 提供 更 多 的 资源 才能 
正常 执行 ， 或 是 行为 模式 不 对 。 


kil1l 命令 的 功能 就 在 这 ,不 过 它 的 名 字 取 得 不 好 。ki11 其 实 是 传送 信号 (signal) 给 
指定 的 执行 中 程序 ,不 过 有 两 个 例外 ,这 稍 后 会 提 到 。 进 程 接 到 信号 ,并 处 理 之 ， 有 时 
可 能 直接 选择 忽略 它们 。 只 有 进程 的 拥有 者 .或 cot 、 内 核 、 进 程 本 身 ， 可 以 传送 信 
号 给 它 。 但 接收 信号 的 进程 本 身 无 法 判断 信号 从 何 而 来 。 


ISO Standard C 只 定义 六 、 七 种 和 储 号 类 型 ， 但 POSIX 增加 了 20 多 种 ， 大 部 分 系统 还 有 
更 多 ， 提 供 30 至 50 种 不 同 的 信号 。 你 可 以 这 样 列 出 它们 ， 以 下 为 SGI IRIX 系统 下 的 
范例 : 

$ Kill -1 列 出 支持 的 信号 名 称 (选项 为 小 写 的 工 ) 

HUP INT -QUIT ILL TRAP ABRT EMT FPE KILL BUS. SEGV: SYS PIPE ALRM TERM 

USR1 USR2 CHLD PWR. WINCH URG POLL STOP TSTP CONT TTIN TTOU VTALRM PROF 


XCPU XFSZ UME RTMIN RTMIN+1 RTMIN+2 RTMIN+3 RTMAX-3 RTMAX-2 RTMAX-1 
RTMAX i 
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这 些 大 部 分 都 是 专业 用 法 ， 我 们 已 在 本 书 Shell 脚本 的 trap 命令 中 介绍 过 几 个 了 。 


每 个 处 理 信 号 的 程序 ， 都 可 自由 决定 解 译 这 些 信 号 的 方式 。 信 号 名 称 反 应 的 是 惯用 性 
(conventions) ， 而 不 是 必须 性 (requirement ) ， 所 以 对 不 同 的 程序 而 言 ， 信 号 所 表示 的 
意义 也 会 稍 有 不 同 。 


无 法 抓 取 的 信号 通常 会 导致 中 断 , 不 过 STOP 与 TSTP 通 常 只 是 暂停 进程 ， 直 到 CONT 的 
信号 出 现 ， 要 求 它 再 继续 执行 。 你 应 该 使 用 STOP 与 CONT， 以 延迟 合法 进程 的 执行 ， 直 
到 系统 不 忙 的 时 候 。 像 这 样 : 


$ top 显示 top 的 资源 消耗 情况 - 

” PPID USERNAME THR PRI NICE SIZE RES STATE TIME CPU COMMAND 
17787 johnson 9 58 0 125M 118M cpu/3 109:49 93.67% cruncher 
$ kill -STOP 17787 | 终止 进程 


$ Bleep 36000 && kill -CONT 17787 & 十 小 时 后 恢复 


13.3.1 删除 进程 


以 删除 进程 来 说 ， 必 须要 知道 的 有 四 个 信号 ，ABRT (中 断 ) 、HUP (搁置 )、KILL, 与 
TERM (终结 ) 。 


有 些 程序 会 在 离开 前 做 些 清除 工作 : 它们 通常 将 TERM 信号 解 译 为。 快速 地 清 区 并 实 开 " 
的 意思 。 如 果 你 未 指定 信号 ， 则 ki11 会 送出 此 信号 。ABRT 有 点 类 似 TERM, 不 过 它 
抑制 清除 的 操作 ， 并 产生 进程 内 存 影像 的 副本 ， 将 其 置 于 核心 ， 即 program;core 或 


core.PID 中 。 


HUP 信 和 号 有 点 类 似 要 求 中 止 , 但 是 对 于 很 多 的 daemon 来 说 ， 它 时 常 表 示 进 程 应 先 停 止 
现在 正在 作 的 事 , 然后 准备 处 理 新 的 工作 ,: 好 像 它 重新 被 启动 一 样 。 例 如 , 在 你 改变 设 
置 文件 后 ,HUP 信和 号 可 令 daemon 重读 设置 文件 。 


有 两 个 信号 是 没有 任何 进程 可 捕 近 或 忽略 的 : KILL 与 STOP。 这 两 个 信号 一 定 会 立即 被 
传送 。 然 而 对 休眠 进程 ( 注 2) 而 言 , 这 根据 Shell 实例 与 操作 系统 而 定 ， 大 部 分 的 其 他 
信号 都 只 在 进程 醒 着 (wake up) 的 时 候 本 传送 。 因此， 你 应 该 预期 在 递送 信号 时 ， 事 
实 上 是 会 有 延迟 的 。 





注 2: 进程 等 待 某 个 事件 , 例如 IO 完 成 或 时 间 的 过 期 处 于 搁置 状态 ， 称 之 为 休眠 (sleep), 了 且 
进程 调度 器 认为 此 时 它 并 非 可 执行 状态 。 当 事 件 最 终 发 生 时 ,进程 会 再 次 进入 可 调度 以 
执行 的 状态 ， 这 时 被 称 为 叫 醒 (awake)。 
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一 次 传送 多 个 信号 时 , 它们 的 传送 顺序 及 是 否 传 送 相 同 信号 超过 一 次 以 上 , 是 不 可 预知 
的 。 有 些 系统 所 提供 的 只 是 保证 ; 至 少 传送 一 个 信号 。 信 和 号 的 处 理 方式 ， 在 各 种 UNIX 
平台 上 有 很 大 的 差异 ， 只 有 最 简单 的 信号 用 法 是 具 可 移植 性 的 。 


我 们 已 介绍 过 用 以 暂停 进程 的 STOP 信号 ，KILL 信号 则 是 让 进程 立即 中 止 。 以 惯例 而 
言 ， 你 应 该 先 送出 HUP 信号 给 进程 ， 让 进程 有 机 会 优雅 地 中 止 。 如 果 它 没有 马上 离开 ， 
再 试 试 TERM 信号。 如 果 这 么 做 还 是 无 法 离开 ， 再 使 用 最 后 手段 KILL 信号 。 下 面 是 它 
们 的 使 用 范例 。 假设 你 正面 临 停滞 不 前 的 响应 : 执行 top 命 令 , 看 看 发 生 了 什么 事 而 得 
到 像 这 样 的 结果 ， 

$ top 显示 top 的 资源 消耗 情况 

‘BID USERNAME THR PRI NICE SIZE RES STATE TIME CPU COMMAND 


25094 stevens 1 48 0 456M 414M cpu 243:58 99.64% netscape 


网 页 浏览 器 通常 只 需要 相当 少 的 CPU 时 间 , 所 以 上 述 情 况 看 起 来 此 进程 已 经 失控 。 我 们 
传送 HUP 信号 给 该 进程 : 


$ kill -HUP 25094 传送 HUP 信号 给 进程 25094 
再 执行 一 次 top， 如 果 仍 发 现 它 还 是 没有 马上 消失 在 显示 结果 上 ， 则 使 用 : 
$ kill -TERM 25094 | 传送 TERM 信号 给 进程 25094 
或 最 后 的 手段 : 
$ kill -KILL 25094 传送 KILL 信号 给 进程 25094 


大 部 分 的 top 实例 ， 会 允许 从 top 本 身 里 ， 下 达 kil11 命令 。 


当然 ， 只 有 你 是 stevens 或 root 时 才能 作 这 样 的 事 。 否 则 ， 你 只 能 要 求 系统 管理 员 
删除 这 个 偏离 的 进程 。 


小 心地 使 用 ki11 命令 。 当 程序 不 正常 中 止 时 ， 可 能 会 在 文件 系统 里 留 下 残余 数据 。 这 
些 数据 本 应 删除 ， 除 了 浪费 空间 外 ， 可 能 还 会 导致 在 下 次 执行 程序 时 发 生 问题 。 例 如 : 
daemon、 邮 件 客户 端 程序 、 文 字 编 辑 器 ， 以 及 网 页 浏览 器 都 会 产生 锁定 (lock) ， 其 仅 
为 一 个 小 型 文件 , 记录 程序 正在 执行 。 如 果 程 序 的 第 二 个 实例 (instance) 被 起 动 , 而 第 
一 个 实例 仍 在 执行 时 , 第 二 个 实例 会 侦 测 到 已 存在 的 lock，, 回报 该 事实 并 立即 中 止 。 否 
则 ， 两 个 实例 写 入 同一 个 文件 ， 将 可 能 发 生 难以 挽救 的 局 面 。 粳 糕 的 是 ， 这 些 程序 很 少 
会 告诉 你 lock 文 件 的 文件 名 , 并 很 少将 它 写 和 文件 里 。 如 果 该 lock 文 件 为 长 期 执行 进程 
的 残余 数据 , 你 可 能 会 发 现 程序 无 法 执行 ,直到 你 找到 lock 并 删除 它 为 止 。 我 们 会 在 13.4 
节 里 告诉 你 怎么 做 。 : 
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有 些 系 统 (GNU/Linux、NetBSD, :与 Sun Sblaris) 提供 了 pgrep 与 pkill 命 令 ， 让 你 
以 名 称 追 踪 并 删除 进程 。 如 未 提供 额外 命令 行 选项 ， 则 | 信号 给 “所 有 ” 
间 定 名 称 的 进程 。 以 偏离 的 进程 为 例 ， 我 们 会 这 人 么 做 | 


$ pgrep netscape -寻找 netscape 工作 的 进程 编号 
25094 ， i 

接着， 
$ pkill _HUP ‘netscape . 传送 HUP 信号 予 netscape 进程 
$ pki11 -TERM netscape 传送 TERM 信号 予 netscape 进程 
$ pKil] -KILL netscape 传送 KILL 信号 予 netscape 进程 


不 过 , 由 于 进程 名 称 不 是 唯一 的 ,因此 以 名 称 来 删除 它们 会 有 风险 : 可 能 一 次 出 掉 太 多 ， 
包括 你 不 想 删 的 。 


13.3:2 捕捉 进程 信和 号 
进程 会 向 内 核 注册 那些 它们 想 要 处 理 的 信号 。 它 们 标明 在 signal () 程序 库 调用 的 参数 
里 , 无 论 信号 是 否 应 该 被 抓 取 、 忽略, 或 中 止 进 程 。 为 了 令 大 部 分 程序 无 须 烦恼 这 些 信 
号 的 处 理 , 内 核 本 身 即 拥有 一 些 信号 默认 值 。 例如 , 在 Sun Solaris 的 系统 上 , 我 们 发 现 : 


$ man -a signal ,| 查看 所 有 关于 信号 的 手册 页 
Name Value Default Event 
SIGHUP 1 Exit Hangup {see termio(7I}). 
SIGINT -这 Exit Interrupt (see tetrmio(7I) ) 
SIGQUIT :3 Core Quit {see termio!{7I)) 
SIGABRT :6 Core * .Abort . 
SIGFPE | .8 :i .Core .. .Arithmetic Exception ... 
SIGPIPE 13 Exit Broken Pipe 
SIGUSR1 : ~ 16 . Exit ' . .User Signal 1 
SIGUSR2 . 17 Exit User Signal. 2 


SIGCHLD 18 Ignore Child Status Changed 0 


czap 可 引起 36 演出 信号 处 理 器 (ai haidler) ee 
个 字符 串 参数 , 其 包含 采取 捕 所 时 要 被 执行 的 命令 列表 ， 紧 接 着 一 个 要 设置 捕 氟 的 信号 
列表 。 在 旧式 Shell 脚本 里 ， 你 会 常 看 见 以 数字 表示 的 信号 。 这 不 但 无 法 让 人 了 解 它 的 
用 意 ， 也 不 具 可 移植 性 ， 所 以 请 使 用 信号 名称。 


例 13- 3 展示 的 小 型 Shell 脚 本 ， looper, 它 的 刀 能 是 使 用 trap 命 令 a 
与 未 被 抓 取 (uncaught) 的 信号 


www.TopSage.com 


进程 : 


375 





例 13-3: 休眠 循环 脚本 : looper 


#! /bin/sh - 
trap ‘echo Ignoring HUP ...' HUP Se Ds 
trap :echo Terminating on USR1 ... ; exit 1' USR1 


while true 
do 

sleep 2 

date >/dev/null 
done 


looper 里 有 两 个 trap 命 令 , 第 一 个 只 是 回报 HUP 信 和 号 已 被 收 到 ,而 第 二 个 则 回报 USR1 
冒号 并 离开 。 之 后 ,程序 即 进入 休 眼 操作 的 无 穷 循环 。 我 们 将 之 执行 于 后 台中 ,然后 传 


送 两 个 它 要 处 理 的 信和 号: 
$ ./looper & 于 后 台 执 行 looper 
[1Y 24179 进程 ID 为 24179 
$ Kill -HUP 24179 ; .'， ”传送 HUP 信 号 予 looper 
Ignoring HUP ... a 
$ Kill -USR1 24179 oh. ， 传送 USR1 信号 予 looper 
Terminating on USR1: .... 2 i 
[1]:+ Done{1) ， ， -./1oopPer & 
现在 来 试 试 其 他 信号 : 
$../looper & . ， 再 次 于 后 台中 执行 looper 
[1] 24286 s 5 各 
$ Kkill -CHLD 24286 传送 CHLD 信 号 给 looper 
$ jobe . i . . 、 ”looper 是 否 仍 在 执行 中 ?. 
[i] + Running 和 /Looper & 
$ Kill -FPE 24286 传送 FPE 信号 给 looper 
[1] + Arithmetic Exception{coredump).,/looper & 
$ ./looper & ~ ”再 次 于 后 台 执 行 looper 
[1] 24395 
$ Kkill _pIPE 24395" ” “传送 PIPE 信和 号 给 5pez 8 
[1] + Broken Pipe… 、 . ./looper. & . a 
$ ./looper & 人 和 ， 再 次 于 后 台 执 行 looper 
[1] 24621 
$ Kkill 24621 传送 默认 信号 TERM 给 looper 
[1] + Done(208) ./looper & 3 


注意 : CHLD 信号 并 未 终止 进程 ， 它 是 内 核 里 默认 要 被 忽略 的 信号 之 一 。 相 对 地 ， 符 点 
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例外 (floating-point exception，FPE) 与 停止 管道 (broken,pipe，PIPE) 信号 则 会 引 
起 进程 中 止 。 


再 加 入 一 个 trap 命令 至 looper 作 最 后 的 试验 : 


trap 'echo Child terminated ...' CHLD 

我 们 将 修改 过 的 脚本 给 予 新 的 名 称 ， 再 执行 它 : 
$ ./looper-2 &. 于 后 台中 执行 looper-2 
[1] 24668 


Child terminated ... 
Child terminated ... 
Child terminated ... 
Child terminated ..， 


$ kill -ABRT 24668 . 传送 ABRT 信号 给 looper-2 
[1] + Abort (coredump) ./looper-2 & 


每 次 循环 主体 的 sleep 与 aate 进 程 中 止 时 ， 都 会 取得 CHLD 捕 所, 并 大 约 每 秒 产生 一 
次 报告 ， 直 到 我 们 传送 ABRT (中 断 ) 信号 才 终 止 循环 进程 。 


除了 先前 kil1 -1 所 列 的 标准 信号 之 外 ，Shell 另 提供 一 个 额外 的 信号 供 Erap 命令 使 


用 : EZXIT。 此 信号 数值 恒 被 指定 为 零 ， 所 以 trap '...' 0 语句 , 在 旧式 的 Shell 脚本 
里 等 同 于 trap '...' EXIT。 
trap '...' EXIT 语 句 的 本 体 ,是 在 做 exit () 系统 调用 之 前 被 引用 ,不 是 明确 的 exit 


命令 ,就 是 脚本 的 正常 终止 。 如 果 为 其 他 信号 而 设置 捕捉， 则 这 些 捕 捉 会 在 EXIT 的 捕 
捉 之 前 被 处 理 。 


执行 EZIT 捕 捉 时 ， 离开 状态 $? 的 值 会 在 捕捉 完成 时 被 保留 下 来 ， 除 非 捕捉 里 的 exit 
重 设 它 的 值 。 


bash、ksh, 与 zsh 另 提供 两 个 给 tzap 使 用 的 信和 号: WN DEBUG, 以 
及 捕捉 在 语句 之 后 回 传 的 非 零 值 离 开 码 的 ERR。 


DEBUG 捕捉 就 有 点 棘手 了 :; 在 ksh88 下 ， 它 是 在 语句 之 后 捕捉 ， 而 后 期 的 Shell， 则 是 
在 之 前 捕捉 。 公 众 软件 的 Korn Shell 实 例 虽 可 在 很 多 平台 上 使 用 , 但 完全 不 支持 DEBUG 
捕捉 。 我 们 以 下 面 的 简短 测试 脚本 说 明 它们 的 不 同 : 

$§ cat debug-trap 显示 测试 脚本 

trap 'echo This is an EXIT trap' EXIT 

trap 'echo This is a DEBUG trap' DEBUG 


pwd 
. pwad 
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在 Sun Solaris 系统 下 ， 我 们 使 用 几 个 不 同 的 Shell 测试 此 脚本 ， 


$ /bin/sh debug-trap 试 试 Bourne Shell 
test-debug-trap: trap: bad trap - 

/tmp . 

/tmp 


This is an EXIT trap 


$ /bin/ksh debug-trap ， 试 试 1988 (i) Korn Shell 
/tmp 

This is a DEBUG trap 
/tmp 


This is a DEBUG trap 
This is an EXIT trap 


$ /usr/xpg4/bin/ash debug-trap 试 试 PoSIX Shell (1988 {i) Korn Shell} 
/tmp 下 

This is a DEBUG trap 

/tmp 

This is a DEBUG trap 

This is an EXIT trap 


$ /usr/dt/bin/dtkash debug-trap 试 试 1993 (d) Korn Shell 
This is a DEBUG trap 

/tmp 

This is a DEBUG trap 

/tmp 

This is a:DEBUG trap 

This is an EXIT trap 


$ /usr/local/bin/kash93 debug-trap 试 试 1993 (o+) Korn Shell 
This is a DEBUG trap 

/tmp | 

This is a:DEBUG trap 

/tmp 

This is a DEBUG trap 

This is an EXIT trap 


$ /usr/local/bin/bash debug-trap 试 试 GNU Bourne~Again Shell 
This is a DEBUG trap 
/tmp 

This is a DEBUG trap 
/tmp 

This is a DEBUG trap 
This is an EXIT trap 


$ /usr/local/bin/pdksh debug-trap 试 试 公众 软件 的 . Korn .Shell 
test-debug-trap[l2]: trap: bad signal DEBUG 、 


$ /usr/local/bin/zsh debug-trap 试 试 Zz-Shell 
This .is a DEBUG trap 

/tmp | 3 

This is a DEBUG trap 

/tmp . . 

This is a DEBUG trap 
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This is an EXIT trap . 
This is a DEBUG trap 


我 们 发 现 旧 版 bash 与 ksh 的 行 生 为 模式 与 这 里 测试 出 来 的 不 太一 样 。 简 而 言 之 , DEBUG 
捕捉 产生 的 行为 模式 各 有 不 同 。 这 会 是 个 问题 , 因此 你 不 太 可 能 在 必须 提供 可 移植 性 的 
Shell 脚本 里 使 用 此 捕捉 。 


ERR 捕 提 一 样 有 出 人 意料 的 行为 : 命令 替换 失败 时 ， 则 不 捕捉 。 举 例如 下 : 


$ cat err-trap 显示 测试 程序 
#! /bin/ksh - 

trap 'echo This is an ERR trap.’' ERR 

echo Try command substitution: ${ls no-such-file) 
echo Try a standalone command: 

ls no~-such-file 





$ ./err-trap 执行 测试 程序 
ls: no-such-file: No such file or directory 

Try command substitution: 

Try a standalone commangd: 

ls: no-such-file: No such file or directory 

This is an ERR trap. 


两 个 1s 命令 都 失败 ， 但 只 有 第 二 个 会 引发 捕捉 操作 。 


在 Shell 脚本 里 , 最 常 使 用 的 信号 捕捉 是 脚本 终结 时 的 清理 操作 , 像 是 删除 暂时 性 文件 。 
这 类 的 trap 命令 引用 ， 传统 上 会 出 现在 Shell 脚本 的 起 始 处 附近 : 
trap ， 清理 操作 出 现在 此 ， EXIT 


将 捕 提 设置 在 Shell 的 EXIT 信 号 处 通常 就 够 用 了 , 因为 它 会 在 所 有 其 他 的 信号 之 后 才 被 
处 理 。 在 实际 上 ，HUP、INT、QUIT 与 TERM 信号 也 时 常 被 捕捉 。 





如 果 要 寻找 更 多 在 Shel 脚本 里 使 用 捕 氟 的 范例 ， 你 可 以 这 么 做 ， 
grep '^trap’ /usr/pbin/* | 寻找 系统 shell 脚本 里 的 捕捉 


我 们 发 现 许多 脚本 仍 使 用 旧式 的 信号 编号 方式 。signal () 函数 的 使 用 手册 通常 会 说 明 
编号 与 名 称 的 对 应 。 


13.4 进程 系统 调用 的 奶 踪 加 

很 多 系统 都 提供 系统 调用 追踪 器 (system call tracers),: 它 是 在 执行 目标 程序 时 ， 显 示 
每 个 系统 调用 及 目标 程序 执行 时 的 参数 。 很 可 能 你 的 系统 里 就 有 一 个 这 样 的 程序 , 你 可 
以 试 试 以 下 列 命令 ; ktrace、par、strace、trace 或 truss。 虽 然 这 些 工 具 通常 不 会 
用 在 Shell 脚本 里 ， 但 它们 可 以 帮助 你 找 出 进程 正在 做 的 事 ， 还 有 为 什么 花 了 这 么 久 的 
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时 间 。 除 此 之 外 ,它们 无 须 访问 源 代 码 或 改变 你 程序 的 使 用 方式 ， 所 以 你 可 以 将 它们 套 
用 在 任何 属于 你 的 进程 上 。 此 也 有 助 于 你 对 进程 的 了 解 ， 所 以 本 节 稍 后 会 作 些 介绍 。 


如 果 你 对 UNIX 系统 调用 的 名 称 不 熟悉 ， 可 以 通过 检查 追踪 日 志 迅 速 找到 它们 。 它 们 的 
文件 传统 上 是 放 在 在 线 使 用 手册 的 Section 2， 例 如 oper(2)。 例 如 ， 文 件 存在 的 测试 通 
常会 包含 access () 或 stat () 系 统 调 用 ， 而 文件 删除 则 需要 unlink () 系统 调用 。 


大 部 分 编译 式 程序 语言 都 有 除 虫 程序 , 允许 使 用 单一 步 又 、 设置 中 断 点 、 变量 检查 等 等 。 
大 部 分 系统 上 ，Shell 没有 除 虫 程序 ， 所 以 有 时 你 得 使 用 Shell 的 -v 选 项 , 显示 Shell 的 
输入 行 ， 或 使 用 -x 选 项 显示 命令 及 其 参数 。 系 统 调用 追踪 器 对 于 输出 结果 提供 了 很 有 
用 的 补充 ， 因 为 它们 可 以 让 你 更 深入 了 解 Shell 引用 的 进程 。 


当 你 执行 未 知 程序 时 , 就 表示 你 所 做 的 这 件 事 对 系统 可 能 造成 危险 。 计算 机 病毒 与 蠕虫 
经 常 是 以 此 方式 散布 。 商 用 软件 多 半 会 随 附 安装 程序 , 这 是 用 户 可 以 信任 并 执行 的 ， 有 
时 其 至 得 要 root 权限 才 行 。 如 果 程 序 为 Shell 脚 本 , 你 便 能 进入 一 罕 究 竟 。 但 如 果 它 是 
像 黑 盒子 一 般 的 二 进 制 影像 文件 ,你 就 无 从 得 知 它 的 行为 了 '。 这 类 程序 常会 让 用 户 觉得 
不 安 ， 我 们 多 半 不 会 以 root 的 身份 执行 它 。 这 时 ， 如 此 一 个 安装 的 系统 调用 追踪 日 志 
就 很 有 用 了 , 它 可 以 帮助 你 找 出 安装 程序 究竟 做 了 些 什么 。 就 算 你 太 晚 知道 而 无 法 回复 
已 删除 的 或 已 更 改 的 文件 , 至 少 你 可 以 知道 哪些 文件 已 受到 影响 , 如 果 你 的 文件 系统 备 
份 或 快照 ( 注 3) 还 在 ， 便 能 马上 修复 此 灾难 。 


大 部 分 长 期 执行 的 进程 都 会 有 许多 系统 调用 , 其 追踪 的 输出 可 能 会 是 很 庞大 的 数量 ， 因 
此 ,最 好 将 之 记录 于 文件 。 如 果 你 只 对 几 个 系统 调用 有 兴趣 ， 你 可 以 在 命令 行 选项 里 指 
定 它们 。 


我 们 现在 来 看 看 GNU/Linux 系统 下 建立 的 进程 , 追踪 Bourne Shell 的 通信 期 。 这 可 能 
会 有 点 令 人 混淆 ， 因 为 输出 的 来 源 有 三 : 追踪 (trace)、Shell 以 及 我 们 所 执行 的 命令 。 
因此 , 我 们 设置 提示 号 变量 PS1, 以 兹 区 别 原始 与 被 追踪 的 Shell, 这 么 一 来 , 便 能 在 每 
一 行 评注 上 它 的 来 源 了 。trace=process 参数 会 选 定 与 进程 相关 的 一 群 系统 调用 : 


$ PSl='traced-sh$ ' strace -e trace=process /bin/sh ”追踪 与 进程 相关 的 系统 调用 


execve("/bin/sh"，["/bin/sh"]，[/* 81 vars */]) = 0 追踪 的 输出 
现在 执行 内 置 命令 : 

traced-sh$ pwa 执行 Shell 内 置 命令 

/home/jones/book 这 是 命令 输出 


注 3: ”快照 (snapshot) 是 近期 某 些 高 级 文件 系统 的 功能 : 它们 可 冻结 文件 系统 的 状态 ， 通 党 
“只 需 数秒 ， 保留 当下 日 好 树 状 结 物 的 样式 ， 用 以 在 日 后 有 世 变 动 或 发 生 问题 时 ， 根据 此 
快照 回复 
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只 有 预期 的 输出 会 出 现 es 人 另 一 个 程序 ， 


traced- sh /bin/pwd 执行 外 部 命令 
fork() = 32390 这 是 追踪 输出 

wait4{-1, | 这 是 追踪 输出 
/home/jones/book ' 这 是 命令 输出 
[WIFEXITED (Ss) && WExXITSTATUS (s) = = 0]，WUNTRACED，NULL) = 32390 这 是 追踪 输出 
--- SIGCHLD (Child exited) -~- 这 是 追踪 输出 

最后， 离开 Shell， 追踪 即 为 ， 

traced-sh$ exit | | | “ 自 Shel1l 离开 

exit oe 6 这 是 追踪 输出 

_exit{0) = ? 二 这 是 追踪 输出 ， 

现在 回 到 原始 的 Shell 通信 期 . 8 | 

$ pwd . a EE 回 到 原始 的 ， .She11 确认 我 们 所 在 位 置 

/home/jones/book . , 工作 中 目 录 未 变更 


Shell 发 出 了 fork ( ) 系统 调用 ， 以 启动 /bin/pwd 进程 ， 其 输出 与 下 一 个 wait4() 系 
统 调用 的 追踪 报告 混合 在 一 起 。 命令 如 常 终 止 ， 是 
成 。 


AR 
制 追 踪 报 告 的 一 般 输 出 ， 


$ truss -c /usr/local/bin/pathfind -a PATH trugs 追踪 pathfind 命令 


‘/usr/bin/truss 这 是 pathfind 产生 的 输出 
/bin/truss . 
/usr/5bin/truss 

syscall seconds calls errors truss 的 报告 由 此 开始 
_exit .00 1 | | | 可 
. fork : .00 .2 

read .00 26 

write .00 | 3. 

open . .00 5 1 

close .00 10 1 

brk - 1.00... 42 | 

stat- .01 19 15 

stat64 .03 33 28 

open64 .00 1 

sys totals: .04 242 50 

usr time: .01 

lonseo: .19 


当 程 序 执行 时 间 超 出 你 所 预期 时 ， 类 似 上 述 的 输出 就 能 帮助 你 ， 可 以 通过 系统 调用 找 出 
执行 效能 上 的 瓶颈 。time 命 令 可 以 为 系统 调用 探测 识别 出 候选 人 : 它 会 报告 用 户 时 间 、 
系统 调用 时 间 及 墙 上 时 钟 时 间 。 
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注意 ， 监 控 文件 访问 最 常见 的 系统 调用 追踪 的 应 用 是 : 可 以 在 追踪 日 志 中 寻找 access ()、 
open{) .stat () 与 nlink{) 的 调用 报告 ,在 GNU/Linux 上 ,使 用 strace -e trace=file 
可 减少 日 志 量 。 当 全 新 安装 的 软件 ,抱怨 找 不 到 所 需 的 组 态 文 件 ， 又 无 法 告诉 你 文件 名 称 
时 ， 文 件 访 问 追 踪 就 派 得 上 用 场 了 。 





系统 调用 追踪 器 对 于 寻找 我 们 先前 所 提 及 的 残留 锁定 文件 也 很 有 用 。 下 面 是 在 Sun 
Solaris 系统 上 ， 如 何 找 出 由 特定 网 页 浏 | 览 器 所 产生 的 锁定 文件 


$ truss -f -0o foo.log mozilla : 道 踪 淹 览 器 执行 
$ grep -i lock foo.1log s . 查找 追踪 文件 里 的 单词 “lock” 


29028: symlink{({"192.168..253.187:29028" 
s/home/jones/. mozilla/jones/c7rboyyz. sit/lock" ) = 0 


29028: unlink{"/home/jones/.mozilla/jones/c7irboyyz.slt/lock") =.0 
此 浏览 器 产生 的 锁定 文件 , 指向 一 个 不 存在 文件 名 的 符号 性 连接 , 此 文件 名 包含 本 地 端 
机 器 的 数值 型 Internet 主机 位 置 及 进程 编号 。 当 浏览 器 进程 提早 死亡 时 ， 删 除 锁定 文件 
的 unlink() 系 统 调 用 便 不 会 被 执行 。 锁 定 文件 名 不 见得 总 是 有 1lock 这 个 字 在 其 中 ， 所 
以 有 时 你 可 能 得 更 仔细 审视 追踪 日 志 ， 找 出 你 要 的 锁定 文件 。 
此 处 为 SGI IRIX 系统 上 缩 简 的 追踪 情况 ， 我 们 要 测试 的 是 /bin/sh 是否 可 执行 : 

$ /usr/sbin/par /bin/test -x /bin/sh .追踪 .test 命令 

omst 0] : execve("/bin/test', dx7ffble88, Ox7ffb7e98) 


. €mSs[ 0].:: access("/bin/sh",. X.OK) OK: : 
6mS[ 0] : 9 :0x7ffbp7cd0) OK ，，. 


6mS[ 0] : prctl (PR.. 和 = 工 

‘6mS[ 0] : exit.(0). | WE 
System call summary : ee : 
Average ~ Total 


Name #Calls Time(ms) Time(ms) 
execve 1 3591 3.91 
open 2 0.11 0.21 
access 1 车 0.17 
‘stat 1 0.12 | 0.12 
prct1 1 0.01 0.01 
‘exit . 1 0.00 900. 


当 你 找到 你 要 的 系统 调用 就 可 以 限制 追 这 输出， 只 显示 特定 的 调用 ， 让 画面 不 致 太 过 混 
乱 : 
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$ /usr/sbin/par -n stat /bin/test -x /bin/sh 仅 追 踪 “stat 系统 调用 
0mS[ 0] (5399999) : was sent ' signal SIGUSR1 
0ms[ 3] : received signal SIGUSR1 (handler 0x100029d8) 
6mS[ 3] : stat("/bin/sh", Ox7ffb7ca0) OK 


System call summary : 


BSD 与 Mac OS X 的 ktrace 命 令 的 运行 有 点 不 太一 样 ， 它 们 是 将 追踪 结果 写成 二 进 制 
文件 : ktrace.out。 之 后 ,再 执行 kdump 将 其 转换 为 文字 形式 。 下 面 是 来 自 NetBSD 
系统 的 追踪 ， 测 试 /bin/sh 的 执行 权限 : 


$ ktrace test -x /bin/sh 追踪 test 命令 
$ ls -1 ktrace.out 列 出 追踪 日 志 
-IrW-rw-r-- 1 jones devel 8698 Jul 27 09:44 ktrace.out 


$ kdump 追踪 日 志 的 后 续 处 理 


19798 ktrace EMUL "netbsa' 
19798 ktrace CALL execve (0xbfbfc650,0xbfbfcb24,0xbfbfcb34) 
19798 ktrace NAMT "/usr/local/bin/test" 


19798 test CALL. access (0xbfbfcc80, 0x1) 
19798 test NAMI "/bin/sh" 1 
19798 test RET access 0 

. 19798 test CALL exit(0) 


追踪 日 志 还 得 作 后 续 处 理 实在 不 是 很 理想 ,因为 这 会 妨碍 我 们 得 知 进程 所 作 的 系统 调用 
之 动态 情况 。 而 且 大 型 的 系统 调用 可 能 更 难以 识别 。 


所 有 的 系统 调用 追踪 器 都 能 以 进程 ID 作 为 参数 , 而 非 命令 名 称 , 这 使 得 它们 可 以 追踪 已 
经 在 执行 的 进程 。 但 只 有 进程 拥有 者 与 root 可 以 作 这 件 事 。 


我 们 这 里 说 明 的 只 是 一 小 部 分 ， 其 实 能 用 的 系统 调用 追踪 器 比 我 们 这 里 提 到 的 多 很 多 。 
请 参考 你 本 地 端 机 器 的 使 用 手册 ， 了 解 更 多 细节 。 


13.5 进程 账 


UNIX 系统 支持 进程 账 (process accounting) 功能 , 不 过 为 减少 管理 性 日 志文 件 的 负荷， 
此 功能 通常 停 用 。 该 功能 启用 时 , 每 当 一 个 进程 完成 ,内 核 便 会 写 入 一 个 简洁 的 二 进 制 
记录 到 系统 相依 的 账目 文件 里 , 例如 /var/adGm/pacct 或 /var/account/pacct。 账目 
文件 在 转 为 文字 数据 流 前 ， 必 须 先 作 处 理 。 例 如 ,在 Sun Solaris 上 ，root 可 能 得 这 么 
做 才能 产生 我 们 看 得 懂 的 列表 : Tr 


# acctcom -a 列 出 账目 记录 
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COMMAND START END REAL CPU . MEAN 
NAME USER TTYNAME TIME TIME (SEGS) (SECS)，STZE{(K) 
cat jones ? 21:33:38 21:33:38 0.07 0.04 1046.00 
echo . jones ? 21:33:38 21:33:38 . 0.13 0.04..884.00 
make jones ? 21:33:38 21:33:38 0.53. 0.05 1048.00 
grep  : jones ? 21:33:38 21:33:38 0.14 0.03 840.00 
bash jones ? 0%55 0 . 


21:33:38 21:33:38 02 1592.00 
由 于 各 UNIX 之 间 的 输出 格式 与 账目 工具 之 实例 都 有 所 不 同 ， 因此 我 们 无 法 为 这 种 摘要 
性 账目 数据 提供 可 移植 性 的 脚本 。 不 过 ， 样本 输出 显示 文字 格式 相对 简单 许多 。 例如 ， 
我 们 可 以 轻松 地 产生 前 十 名 的 命令 列表 及 使 用 量 计数 

# acctcom -a | cut -d''-f1| Bort 了 niqg -c a Sort -klnr -k2 | head -n 10 

.21129 bash 

5538 cat 

4669 rm 

3538 sed 

1713 acomp 

1378 cc 

1252 cg 

1252 iropt 

1172 uname 

808 gawk 


这 里 , 我 们 使 用 cut 搞 取 出 第 一 栏 , 再 以 sort 排序 此 列表 , 以 uniq 减 少 重复 的 计数 ， 
再 重新 由 大 至 小 排序 计数 ， 最 后 使 用 head 在 列表 里 显示 前 十 笔 数据 。 


使 用 apropos accounting 命令 ， 可 找 出 你 系统 里 的 账目 命令 。 常 见 的 有 acctcom、 
lastcomm 与 sa; 它们 都 有 很 多 选项 可 用 以 简化 大 量 日 志 数 据 , 使 其 成 为 易于 管理 的 报 
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13.6 延迟 的 进程 调度 

大 部 分 上 时候， 用户 都 是 希望 进程 马上 起 始 ， 快 点 结束 。 而 Shell 的 执行 ， 也 是 在 前 一 个 
命令 后 , 马上 接着 执行 下 一 个 命令 。 命令 完成 的 速度 是 与 资源 的 限制 有 关 , 且 不 在 Shell 
的 权限 下 。 


在 交谈 模式 使 用 下 ， 有 时 不 必 等 到 命令 完成 才能 执行 另 一 个 。 这 是 Shell 提供 的 一 个 简 
单方 式 ; 所 有 的 命令 只 要 在 最 后 加 上 多 字符 ， 都 可 起 始 于 后 台 执 行 , 无 须 等 待 。 只 有 在 
少数 情况 下 ， 必 须 等 待 后 台 进程 完成 ， 见 13.2 节 里 所 提 及 的 wait 命令 。 


至 少 有 4 种 情况 需要 延迟 进程 起 始 , 直到 未 来 的 某 个 时 间 点 才 执行 ,我 们 将 于 以 下 子 节 
介绍 
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13.6.1 sleep: 延迟 片刻 


当 进 程 应 于 某 个 特定 时 间 过 后 才能 启动 时 , 可 使 用 sleep 命 令 暂 停 执行 一 段 指定 的 秒 数 
之 后 ,再 下 达 被 延迟 的 命令 。sleep 使 用 的 资源 很 少 , 且 可 在 不 会 对 活动 中 的 进程 有 任 
何 干 扰 下 被 使 用 。 素 实 上 , 调度 器 只 是 忽略 休 眼 中 的 进程 ,直到 其 计时 器 届满 才 叫 醒 它 们 。 


在 例 13-1 与 例 13-3 我 们 都 使 用 短暂 的 Sleep 建立 一 个 无 穷 循环 的 程序 , 但 这 么 做 并 不 会 
耗 掉 系统 的 太 多 资源 。 在 .9.10 节 中 的 短暂 Sleep 用 以 确保 循环 中 为 各 个 进程 选择 一 个 新 
虚拟 随机 产生 器 种 子 。 在 13. 3 节 里 的 长 时 间 Sleep， 等 待 一 段 时 间 ， 直 到 系统 有 更 多 时 
间 处 理 时 ， 才 重 启 消耗 大 量 资源 的 工作 。 


大 部 分 deamon 在 执行 其 工作 时 ， 都 会 短暂 休眠 之 后 再 醒 来 检查 更 多 的 工作 。 在 这 种 方 
式 下 ,它们 只 会 耗 用 少数 资源 ,执行 时 对 其 他 进程 的 影响 很 小 ,它们 通常 是 引用 sleep () 
或 usleep() 函 数 ( 注 4)， 反 而 不 会 直接 使 用 Sleep 命令 , 除非 它们 本 身 就 是 Shell 脚 本 。 


13.6.2 at， 延迟 至 特定 时 间 


at 命 令 可 以 令 程序 在 特定 时 间 执 行 。 该 命令 语法 在 系统 间 各 异 , 不 过 下 面 的 例子 为 普遍 
形式 ， 


at 21:00 
at now 
at now + 10 minutes 
at now + 8 hours 
at 0400 tomorrow 
at 14 July 

. at noon + 15 minutes 

at teatime 


command-file 在 下 午 9 点 执行 

command-file 马上 执行 

commhand-file 10 分 钟 后 执行 

commandG-file 8 小 时 后 执行 

command-file， 明 无 早 上 4 点 执行 
commandG-file 在 下 一 个 国庆 日 (Bastille Day) 执行 
conmand-file 在 今天 的 .12:15 执行 

command-file 在 今天 下 午 执 行 


上 述 每 个 例子 , 要 执行 的 工作 都 定义 在 command-file 里 的 命令 。 at 指 定时 间 的 方式 有 
点 哲学 ， 像 最 后 一 个 例子 指 的 就 是 16:00。 


atg 列 出 at 队列 里 的 所 有 工作 ， 而 atrm 则 是 删除 它们 。 欲 了 解 更 进一步 的 细节 ， 请 
参考 你 系统 里 的 at 使 用 手册 。 


入 AAAAAAA 








注意 : 部 分 系统 上 ， 用 以 执行 at 的 Shell 为 Bourne Shell (Wbin/sh)， 而 你 登录 的 Shell 可 能 又 
是 在 其 他 系统 上 。 你 可 以 避 开 这 些 不 稳定 的 情况 , 在 at 单行 命令 输入 时 ， 指定 一 个 你 觉得 
好 用 的 语言 所 写 的 可 执行 脚本 ， , 首 行 设置 如 下 : | | | 


#! /pa ee 





注 4: 不 同 的 系统 会 有 所 不 同 ， 有 些 是 系统 调用 ,有些 是 程序 库 汶 数 。 
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at 命令 系列 能 否 可 用 根据 管理 政策 而 定 。at .allow 与 at .deny 两 个 文件 即 用 以 控制 其 
访问 : 它们 可 能 是 储存 在 /etc、 /usr/1lib/cron/at、 /var/adm/cron 或 /var/at 中 ， 
根据 UNIX 版 本 而 定 。 假 如 找 不 到 这 两 个 文件 , 那 就 只 有 root 可 以 使 用 at 了 。 如 果 你 
的 系统 不 允许 你 使 用 at 命令 ， 你 可 以 向 你 的 系统 管理 员 反映 ， 大 部 分 站 台 ， 没 有 理由 
禁止 这 个 功能 。 


13.6.3 batch: 为 资源 控制 而 延迟 


在 计算 机 提供 互动 模式 给 人 们 访问 之 前 ,操作 系统 执行 所 有 的 进程 都 是 采取 批 处 理 模式 
(batch mode) 。 工作 数据 流 的 执行 是 累积 式 的 , 而 它们 的 执行 顺序 可 能 视 工作 在 队列 里 
的 位 置 、 你 的 身份 、 你 的 重要 性 、 你 所 需要 的 资源 与 你 能 拥有 的 资源 、 你 要 准备 等 待 多 
久 , 以 及 你 愿意 付出 多 少 而 定 。 许多 大 型 主机 以 及 大 型 计算 服务 器 , 仍 以 此 方式 来 耗 用 
其 CPU 周期 。 ; 


现行 所 有 UNIX 系统 都 支持 bat ch 命令 , 让 你 将 进程 加 入 至 某 个 批 处 理 队 列 中 。 batch 
的 语法 在 系统 间 各 异 ， 不 过 它们 都 支持 读 取 来 自 标 准 输入 的 命令 : 


batch < command-file 批 处 理 执 行 命令 
某 些 系 统 下 ， 它 等 同 于 : 
at -q b -m now < command-file 立即 执行 在 批 处 理 队列 下 的 命令 


其 中 ，-q b 为 指定 批 处 理 队 列 ，-m 则 是 要 求 在 工作 完成 时 寄 送 邮件 予 用 户 , 而 now 意 
即 已 准备 好 立即 执行 


batch 的 问题 便 是 它 太 简化 了 : 对 批 处 理 处 理 的 顺序 提供 的 控制 很 少 , 也 没有 一 套 批 处 
理 政 策 。 这 个 命令 很 少 用 在 小 型 系统 上 ; 而 在 大 型 系统 上 ， 特 别 是 那些 分 散 式 系统 ， 
batch 也 已 被 许多 更 复杂 的 实例 所 取代 , 像 我 们 在 表 13- A 这 些 包 都 提供 整 
套 完 整 的 命令 ， 用 来 委任 与 管理 批 处 理工 作 。 


表 13-2: 进 阶 的 批 处 理 队列 与 调度 系统 


名 称 0 潜 丘 ， 站 省 各 所 - 网 站 Ws NE 
Generic Network Queueing System htip://www.gngqs.org/ 
IBM LoadLeveler http://www.ibm.com/servers/eserver/pseries/ 


library/sp_books/loadleveler.html 


Maui Cluster Scheduler http://supercluster.org/maui/ 
Platform LSF system http://www.platform.com/products/LSFfamily/ 
Portable Batch System htip://www.openpbs.org/ 
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表 13-2， 了 的 处 理 队 玖 与 调和 ( 续 ) 
和 





Silver Grid Scheduler | A py | 
Sun GridEngine htip://eridengine.sunsource.net/ 





13.6.4 crontab: 在 指定 时 间 再 执行 


大 部 分 计算 机 有 许多 管理 工作 需要 重复 执行 , 像 是 每 晚 的 文件 系统 备份 、 每 周 的 日 志文 
件 与 暂时 性 目录 的 清空 、 每 月 的 账目 报表 等 等 。 一 般 用 户 也 会 需要 用 到 这 样 的 功能 , 例 
如 将 办 公 室 计算 机 里 的 文件 与 家 里 计算 机 中 的 文件 进行 同步 。 


这 个 工具 程序 可 在 指定 的 时 间 执行 5 工作 ， 其 包括 了 在 系统 启动 时 起 始 的 cron daemon， 
与 crontab 命 令 , 此 命令 用 来 管理 /记录 工作 应 何 时 执行 的 简单 文字 文件 : 见 cron(8) 与 
crontab(1) 的 使 用 手册 。 你 可 以 通过 crontab -1 《小 写字 母 世 列 出 你 的 目前 工作 调 
度 ， 以 crontab -e 启动 编辑 器 更 新 调度 。 编 辑 器 的 选择 根据 EDITOR 环境 变量 而 定 ， 
有 些 计算 机 会 因为 未 设置 此 参数 而 拒绝 执行 crontab， 但 有 些 则 会 直接 启动 ea。 


crontab 文 件 ( 见 crontab(5) 使 用 手册 ) 支持 Shell 式 注释 ， 所 以 在 它 的 起 始 处 具有 说 
明 是 很 有 用 的 ， 可 提醒 我 们 其 语法 : 


$ crontab -1 列 出 目前 的 crontab 调度 
# mm hh dd .mon weekday .， Command.. 


# 00-59 00-23 01-31 01-12 0-6(0=Sunday) 


前 5 个 栏 位 ， 除 了 使 用 单一 数字 外 ， 还 可 以 搭配 连 字符 分 隔 ， 指 出 一 段 ( 含 ) 区 间 ( 例 
如 , 第 二 个 栏 位 里 的 8-17,， 指 的 是 08:00 至 17:00 闻 每 小 时 执行 一 次 ), 或 者 使 用 彭 点 分 
隔 数 字 列 表 或 区 间 《 例 如 : 第 一 个 字段 的 0,20, 40 指 的 便 是 每 20 分 钟 执行 一 次 )。 你 
还 可 以 使 用 星 号 ， 指 该 字段 所 有 可 能 的 数字 ， 见 下 面 范 例 ; 


15 * 六 雯 六 command 每 个 小 时 的 第 15 分 钟 执 行 
0 2 1 * * command 每 个 月 一 开始 的 02 :00 执行 
0 8 11,7* command 一 月 一 日 与 七 月 一 日 的 08:00 执行 
0 6 和 command 每 周一 的 06:00 执行 
0 8-17 * * 0,6 command 每 周末 的 08 :00 至 :17:;00 间 ， 一 小 时 执行 一 次 








警告 ， 虽 然 POSIX 宣称 空白 行 会 忽略 不 处 理 ， 但 有 些 商用 的 crontab 版 本 却 无 法 容许 这 样 的 情 
况 , 还 会 确实 地 删除 含有 空白 行 的 crontab 文 件 ! 所 以 我 们 建议 你 , 不 要 在 你 的 crontab 
文件 里 置 人 空白 行 。 
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crontab 文 件 里 的 命令 执行 于 一 些 已 经 设置 的 环境 变量 下 ; SHELL 为 /bin/sh, 但 HOME、 
LOGNAME， 有 了 时 还 包括 USER， 则 是 根据 passwed 文件 或 数据 库 里 的 记录 值 而 被 设置 。 


PATH 的 设置 极为 严格 , 通常 只 设置 /usr/bin。 如 昌 你 习惯 更 自 由 的 设置 , 则 你 要 不 就 
得 在 crontab 文 件 中 指定 命令 的 完整 路 径 名 称 ， 要 不 就 是 明白 地 设置 PRATH: 


0 4 * *:* /usr/local/bin/updatedb 和 “每 夜 更 新 Ga 的 快速 查找 数据 库 
0 4 * * * PATH=/usr/local/bin:$PATH updatedb 类似 上 述 操作 ,. 但 将 PATH 传递 巴 
updatedb 的 子 进程 


任何 出 现在 标准 错误 输出 或 标准 输出 上 的 数据 都 会 寄 给 你 , 或 是 在 其 他 实例 中 , 会 寄 到 
MAILTO 变 量 的 值 所 指定 的 用 户 。 实 务 上 ， 你 通常 会 比较 倾向 于 将 输出 重 导 至 一 个 日 志 
文件 ， 并 累积 连续 执行 的 记录 。crontab 实 例 记 录 会 有 点 类 似 这 样 : 


5 SHOME/bin/daily >> $HOME/logs/daily.log 2>&1 


此 类 日 志文 件 会 持续 成 长 , 所 以 你 应 该 适时 地 清除 它 , 你 可 以 使 用 编辑 器 删除 此 日 志文 
件 的 前 半 段 ， 也 可 以 使 用 tail -n nn 取出 最 后 的 n 行 : 


cd $HOME/logs 切换 至 日 志文 件 所 在 目录 
mv daily.log daily .tmp 重新 命名 日 志文 件 

tail -n 500 daily.tmp > daily.log 回复 最 后 的 500 行 

rm daily .tmp | | 合 弃 旧 的 日 志文 件 


在 做 这 个 操作 时 ， 只 要 确认 日 志文 件 当时 未 正在 进行 更 新 操作 即 可 。 很 明显 地 , 对 于 这 
个 必须 重复 不 断 执行 的 进程 , 我 们 可 以 , 也 应 该 这 么 做 , 将 它 委 托 给 另 一 个 crontab 实 
例 记录 。 : 

EE Te 让 每 个 cron 工 作 日 
志 都 拥有 一 个 文件 。 以 每 日 的 日 志 来 说 ， 我 们 可 以 使 用 crontab 项 目 如 下 : 


55 23 * * * S$HOME/bin/daily > O09 date Es \%m. \%d. .1og 2>&1 


cron 通 常会 将 命令 行 了 上 的 百分比 字符 变更 为 换行 5 符号 ， 这 加 上 反 匀 线 即 可 避 旬 这样 
的 不 寻常 行为 模式 。 


你 也 可 以 很 罗 松 地 压缩 或 册 除 旧 的 文件， 只 要 通过 find 命令 即 可 : 
.find $HOME/logs/*.log -ctime:+31 | xargs bzip2 -9 ， 压缩 一 个 月 前 的 日 志文 件 . 


find SHOME/Iogsyx* ,log -ctime +31 | xargs rm 删除 一 个 月 前 的 日 志文 件 
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注意 : 为 保持 crontab 文 件 的 简明 , 将 它 的 每 个 命令 以 设计 好 的 文件 名 ,分别 存 放 在 个 别 的 Shell 
脚本 中 。: 可 供 你 稍 后 修订 这 些 脚本 ， 而 无 须 动 到 你 的 crontab 文 件 。 ， 
如 果 执 行 cron 工作 的 第 二 个 实例 可 能 会 造成 伤害 的 话 ( 例 如 文件 系统 备份 或 日 志文 件 更 
新 ), 你 就 必须 避免 这 种 情况 , 要 不 就 是 得 使 用 适当 的 锁定 文件 ， 要 不 就 是 于 工作 本 身 结束 
之 前 把 cron 换 成 at。 当 然 , 你 之 后 必须 监控 它 每 次 执行 后 的 情况 。 这 么 一 来 ， 当 发 生 错 
误 事件 时 ， 如 果 你 使 用 的 是 锁定 文件 ， 你 必须 确定 已 删除 它们 ， 如 果 你 使 用 的 是 at， 则 得 
重新 调度 工作 。 


你 可 以 使 用 crontab 开 将 crontab 文 件 整个 删除 。 它 就 像 rm 一样 无 法 撤回 ， 也 无 法 
复原 。 我 们 建议 你 保留 备份 ， 像 这 样 : 


crontab -1 > $HOME/ .crontab.hostname、 储存 现行 crontab 


crontab -r 删除 crontab 
这 么 一 来 ， 之 后 你 可 以 如 此 这 般 的 回复 : . 
crontab $HOME/.crontab.‘hostname、 | ” 回复 储存 的 crontab 


由 于 这 里 假设 一 个 主机 里 只 有 一 个 crontab 文 件 ， 所 以 我 们 将 主机 名 称 包括 在 被 储存 
的 文件 名 称 里 ， 这 么 一 来 便 能 马上 识别 出 它 是 属于 哪 台 主 机 的 文件 。 


crontab 会 以 命令 行 上 给 定 的 文件 置换 任何 已 存在 的 调度 , 提供 的 语法 必须 正确 无 误 ， 
否则 将 保留 旧 的 调度 。 


就 像 at 命令 那样 ， 系统 目 录 里 也 有 cron.allow 与 cron.deny 文 件 ， 用 以 控制 是 否 允 
许 cron 工 作 , 以 及 谁 可 以 执行 它们 。 如 果 你 发 现 你 不 能 使 用 这 个 好 用 的 工具 ， 请 向 系 
统管 理 员 反映 。 要 


gs /proc 文件 系统 


有 些 UNIX 版 本 ， 借用 了 贝尔 实验 室 所 开发 的 想法 ， /proc 文 件 系统 。 与 其 通过 无 数 的 
系统 调用 不 断 地 更 新 ,以 提供 内 核 数 据 的 访问 , 不 如 通过 一 个 特殊 文件 设备 , 访问 内 核 
里 的 数据 , 也 就 是 在 /proc 目 录 内 实例 一 个 标准 的 文件 系统 界面 。 每 个 执行 中 的 进程 都 
会 在 那里 拥有 一 个 子 目 录 , 以 进程 编号 命名 , 且 在 每 个 子 目录 里 面 是 各 式 各 样 小 文件 的 
内 核 数据 。 这 个 文件 系统 的 内 容 , 可 参考 proc(4) (大 部 分 系统 ) 或 proc(5)(GNU/Linux) 
的 使 用 手册 。 


GNU/Linux 开发 了 比 UNIX 各 类 版 本 还 多 的 此 想法 ， 且 它 的 ps 命令 更 能 取得 所 有 需要 
的 进程 数据 ， 只 要 读 取 /proc 下 的 文件 即 可 。 你 可 通过 系统 调用 追踪 strace -e 
trace=file ps aux 的 执行 ， 来 验证 此 说 法 。 
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下 面 的 范例 是 一 个 文字 编辑 器 通信 期 的 进程 文件 ; 


$ 18 /proc/16521 为 进程 16521 列 出 proc 文件 
cmdline environ fd mem root statm 

cwd exe maps mounts stat status 

$ 18 -1 /proc/16521 . 以 元 长 式 列表 ， 再 列 出 一 次 

total 0 

eh i eh 1 jones devel 0 Oct 28 11:38 cmdline 

lrwxXrwxrwx 1 jones. devel 0 Oct 28 11:38 cwd -> /home/jones 
a 1 jones devel 0 Oct 28 11:38 environ 

lrwxrwxrwx 1 jones devel 0 Oct 28 11:38 exe -> /usr/bin/vi 
[0 b op, Gre 2 jones devel 0 Oct 28 11:38 fd . 
-I~--r--I-~ 1 jones devel 0 Oct 28 11:38 maps 

-IW------- 1 jones devel 0 Oct 28 11:38 mem 

-I--r--r-- 1 jones devel 0 Oct 28 11:38 mounts 

lIWXIrwxIrWwx 1 jones devel 0 Oct 28 11:38 root -> / 
-r--r--r-- 1 jones devel 0 Oct 28 11:38 stat 

i i .1 jones. devel: 0 Oct 28 11:38 statm 

-Ir~~r--r-~- 1 jones devel 0 Oct 28 11:38 status 


请 注意 , 这 里 所 有 的 文件 似乎 都 是 空 的 。 但 事实 上 , 它们 都 包含 了 设备 驱动 程序 在 被 读 
取 时 所 提供 的 数据 : 它们 从 未 真 的 存在 于 储存 设备 里 。 它 们 的 时 戳 也 是 有 疑问 的 在 
GNU/Linux 与 OSF/1 系统 下 ， 它们 反映 的 是 目前 时 间 ， 但 在 IRIX 与 Solaris 里 ,它们 显 
示 的 却 是 每 个 进程 起 始 的 时 间 。 


/proc 文 件 的 大 小 为 零 ， 造成 部 分 工具 程序 的 混 清 ， 像 是 scp 与 tar。 你 可 能 得 先 试 着 
使 用 cp， 将 它们 复制 到 别处 的 一 般 文件 里 。 
现在 我 们 来 看 看 其 中 一 个 文件 : 


$ cat -v /proc/16521/cmdline “显示 进程 命令 行 

Vi^@+273^@ch13 .xml“^@ 
-V 选项 将 无 法 打印 的 字符 以 脱 字 符号 注释 来 显示 ，“^@ 所 表示 的 就 是 NUL 字符 。 显 然 
地 ， 此 文件 包含 一 连 串 以 NUL 终结 的 字符 串 ， 还 有 命令 行 里 的 参数 。 
除了 特定 进程 数据 之 外 ，/proc 还 包括 其 他 有 用 的 文件 : 

$ 18 /proc | egrep -v '^[0-9]+$' | fmt 列 出 所 有 除了 进程 以 外 的 自 录 

apm bus cmdline cpuinfo devices dma driver execdomains fb 

filesystems fs ide interrupts iomem ioports irq isapnp kcore kmsg 

ksyms loadavg locks mdstat meminfo misc modules mounts mtrr net 


partitions pci scsi self slabinfo speakup stat swaps sys sysvipc 
tty uptime version 


这 是 其 中 一 个 的 起 始 


$ head -n 5 /proc/meminfo | 显示 内 存 信 息 的 前 5 行 
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total: used: free: . shared: .buffers:; cached: 
Mem: 129228800 116523008 12705792 0 2084864 59027456 
Swap: 2146787328 28037120 2118750208 
MemTotal : 126200 kB . 
MemF ree: 12408 KB 


通过 文件 方式 取得 进程 数据 是 很 方便 的 , 这 也 使 得 就 算 缺 乏 系统 调用 界面 , 数据 也 很 容 
易 通 过 程序 语言 所 撰写 的 程序 来 取得 。 例如，Shell 脚 本 可 以 从 /proc/*info 文 件 收 集 
CPU、 内 存 , 与 储存 设备 在 硬 体 方面 的 细节 ,前提 当然 是 你 的 系统 环境 下 有 提供 这 样 的 
文件 ， 然 后 再 产生 类 似 sysinfo ( 注 5) 命令 所 作 的 华丽 报告 。 然 而 ， 这 些 文件 缺乏 标 
准 化 的 内 容 ， 使 得 产生 统一 的 报告 更 为 困难 。 


13.8 小 结 


在 本 章 ， 我 们 呈现 了 : 如 何 建立 、 列 出 、 控 制 、 调 度 与 删除 进程 ， 还 有 如 何 将 信号 传送 
给 它 , 以 及 如 何 追 踪 它们 的 系统 调用 。 由 于 进程 执行 于 私有 地 址 空间 中 , 因此 它们 不 会 
彼此 干扰 ， 也 不 需要 特别 花 力 气 写 程序 让 它们 在 同一 时 间 执 行 。 


进程 都 可 捕 氟 所 有 的 信号 〈 只 有 两 个 例外 ) ， 它 们 要 不 就 是 忽略 它 ， 要 不 就 是 响应 期 待 
的 操作 。 无 法 捕捉 的 两 个 信号 是 KILL 与 STOP, 都 是 为 了 确保 如 果 有 行为 不 当 的 进程 ， 
都 可 马上 杀 除 或 暂停 之 。 需 要 执行 清理 操作 的 程序 , 像 是 储存 活动 中 的 文件 、 重 设 终端 
机 模式 ， 或 是 删除 锁定 ， 通 常 都 会 要 捕捉 一 般 信号 ; .否则 ， 绝 大 多 数 无 法 捕 氟 的 信号 ， 
都 会 导致 进程 中 止 。 有 了 trap 命令 ， 将 简单 的 信号 处 理 加 入 ,SheH 脚本 里 就 更 容易 了 。 


最 后 , 我 们 检查 各 种 不 同 的 延迟 与 控制 进程 执行 的 机 制 。 在 这 里 面 , sleeB 为 撰写 Shell 
脚本 时 最 好 用 的 一 个 ， 不 过 其 他 命令 还 是 各 有 其 不 可 或 缺 的 用 途 。 





注 5: 可 在 http:AHwww.magnicomp:com/sysinfo/ 取得 。 
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在 POSIX 下 定义 的 Shell 语言 ， 比 原始 的 V7 Bourne Shell 规模 大 很 多 ， 但 又 比 ksh93 
与 bash 所 实例 的 语言 小 ， 这 两 种 语言 是 Bourne Shell 扩 展 版 本 里 ， 最 广泛 使 用 的 。 


要 编写 一 个 耐用 的 脚本 使 用 到 Shell 语 言 的 所 有 扩展 的 优势 ,可 能 就 会 用 到 这 两 个 Shell 
的 其 中 一 个 ， 甚 至 是 两 个 并 用 。 因 此 ， 了 解 它 们 的 共通 功能 及 差异 ， 绝 对 是 很 重要 的 。 


长 久 下 来 , bash 取 用 许多 ksh93 里 的 扩展 , 但 并 非 全 部 。 所 以 它们 有 相当 多 功能 是 重 
登 的 , 却 也 有 很 多 的 地 方 不 同 。 本 章 将 大 致 描述 bash 与 ksh93 的 差异 以 及 它们 共通 的 
扩展 ， 与 POSIX .Shell 所 提供 的 功能 。 


注意 ; 很 多 在 这 里 提供 的 功能 , 都 只 有 ksh93 近期 版 本 才能 使 用 。 一 些 商 用 UNIX 系统 仍 使 用 旧 
版 本 的 ksh93， 特 别 是 dtksh (desktop Korn Shell，/usr/dt/bin/dtksh) 这 个 程序 ， 
ee 最 好 的 方式 应 该 是 下 载 当前 ksh93 的 原始 码 并 从 头 开始 建 置 ， 详 

见 14.4 节 。 


14.1 迷 思 
Wo 


存 角 Sjpel 状态 - 
例 14- 1 告诉 你 如 何 存储 Shell 1 状态 至 文件 中 但 POSIX 标 准 里 有 个 失察 之 处 ， 未 
定义 存储 函数 定义 的 方式 供 日 后 回复 之 用 ! 下 面 就 是 要 告诉 你 , 如 何 使 用 bash 与 
ksh93 完成 此 任务 。 


3 了 97 
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例 动 -1 存储 bash 与 ksh93 的 Shell 状态 ， 包 括 函 数 
2 


Set +O 选项 设置 

(shopt -P) 2>/dev/null .bash 特定 的 选项 ， subShell 会 使 ksh 沉默 
set ，“ 效 量 与 值 “，- . 

ex$ort- -p : 被 导出 的 变量 

readonly -p l 只 读 变量 

trap 捕捉 设置 

typeset -f 涪 数 定义 ( 非 POSIX) 


} > /tmp/Shell.state 


要 注意 的 一 点 是 : bash 与 ksh93 定 义 函 数 时 使 用 的 语法 不 同 , 所 以 如 果 你 想 在 其 
中 一 个 Shell 输出 状态 ， 然后 在 另 一 个 Shell 里 回复 时 ， 必须 小 心 处 理 。 


echo 不 具 可 移植 性 
在 2.5.3 节 里 ， 曾 说 过 echo 命令 只 有 最 简单 的 用 法 可 使 用 在 必须 具 可 移植 性 的 脚 
本 上 ， 且 其 各 种 选项 与 转 义 符 有 些 具 可 移植 隆 有 些 又 没有 【〈 尽 管 它 的 确 在 POSIX 
标准 下 ) 。 | 
ksh93 下 ,内 置 的 echo 版 本 会 试图 模仿 $PATH 下 所 找到 的 外 部 版 本 echo 之 
行为 模式 ;此 操作 背后 的 理由 就 是 为 了 兼容 性 : 在 所 有 UNIX 系 统 上 , 当 Korn Shell 
We Bourne Shell 脚本 时 ， 它 应 当 遵循 与 原 Bourne Shell 相同 的 行为 模式 。 


另 一 方面 ，bash 下 内 置 版 本 的 行为 模式 在 各 UNIX 系统 间 都 是 相同 的 。 原 理 根据 
是 一 致 性 : bash 脚本 应 有 相同 的 行为 模式 ， 不 应 该 因为 找 行 于 不 同 的 UNIX 系统 
而 有 所 差异 。 因 此 为 了 完整 的 可 移植 性 ，echo 应 避免 使 用 , printf 仍 是 最 好 的 选 
， 择 。 i 
OPTIND 可 为 本 地 端 变量 
在 6.4.4 节 中 我 们 提 到 过 getopts 命令 、OPTIND 与 OPTARGS 变量 ,ksh93: 提 供 了 
定义 函数 的 本 地 端 版 本 的 OPTIND 国 数 关键 字 。 它 的 想法 是 : 函数 可 以 像 个 别 的 脚 
本 一 样 使 用 getopts, 以 等 同 于 脚本 的 方式 处 理 它 们 的 参数 , 而 不 影响 其 父 选 项 的 
处 理 。 


$s{var: ?message} 可 能 不 存在 
${tvariable: ?message) 变量 展开 会 检查 是 否 variable 已 设置 。 如 果 否 ， 则 Shell 
显示 message 信 息 并 离开 。 但 如 果 Shell 是 在 交互 模式 下 , 行为 模式 就 不 同 了 。 讶 
RR i I 下 面 
的 脚本 名 为 x. sh: ; | 


echo $ {somevar: ?somevar ‘is not set} 
echo still running 


针对 上 述 脚 本 ，bash 与 ksh93 的 行为 模式 如 表 14-1 所 示 。 
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表 14-1:; $f{var: Messagelts bash 与 ksh93 下 的 互动 


命令 “显示 信息 :: 接 下 来 命令 的 执行 吧 
$ bash x.sh 是 否 
$§ ksh93 x.sh 是 否 
bash$. x.sh 是 是 
ksh93$. x.sh “是 . 后 





这 里 指出 ， 如 果 你 确定 脚本 可 以 用 点 号 命令 执行 ， 则 你 应 该 确保 它 在 使 用 
${variable:?message} 架构 之 后 便 离 开 。 


在 for 循环 中 ， 漏 失 循环 项 目 - 


这 部 分 很 难 解释 ， 先 看 下 面 这 个 循环 : 
for i in $a $b $c 
do 
执行 一 些 操作 
done . 
如 果 三 个 变量 都 为 空 ， 则 没有 值 给 循环 处 理 ，Shell 就 静默 地 不 作 任 何 操作 。 就 像 
这 么 写 循环 一 样 : 


for i in # 什么 事 也 没 做 ! 
do - 

执行 一 些 操作 
done 
然而 , 对 大 部 分 的 Bourne Shell 版 本 来 说 , 真 的 这 么 编写 循环 会 产生 语法 错误 。 不 
过 2001 POSIX 标准 中 ， 已 将 直接 进入 一 个 空 循环 的 作 共 制 定 为 合法 。 
当前 版 本 的 ksh93 与 bash 都 接受 空 的 for 循环 ， 只 是 静默 地 不 做 任何 事 。 不 过 这 
是 近期 出 现 的 功能 ， 这 两 套 Shell 的 旧版 本 以 及 原始 的 Bourne Shell， 可 能 还 是 会 
产生 语法 错误 的 信息 。 


DEBUG 捕捉 ， 行 为 模式 各 异 . 


ksh88 与 ksh93 都 提供 特殊 的 DEBUG 捕 捉 ， 以 利 Shell 除 虫 与 追踪 。 在 ksh88 下 ， 


DBBUG 的 捕捉 是 在 每 个 命令 执行 之 后 发 生 , 但 在 ksh93 下, 却 是 在 命令 执行 之 前 


发 生 。 到 当前 为 止 还 好 。 较 让 人 党 得 混淆 的 是 : bash 早期 版 本 遵循 ksh88 的 行为 
模式 ,但 现行 版 本 却 是 遵循 ksh93。 这 点 在 13.3.2 节 里 即 已 说 明 。 


set 的 长 与 短 选 项 


两 个 Shell 下 的 set 命令 都 接受 受 额外 的 短 选项 与 长 选项 , 它们 完整 的 set 选项 列 于 
表 14-2。 标 注 POSIX 的 项 目 在 bash 与 Korn Shell 中 都 可 使 用 。 
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表 14-2: set 的 Shell 选项 


短 选 项 -0 形式 

-a allexport 

-A 

-b notify 

-也 braceexpand 
-C noclobber 

-e errexit 

-f noglob 

-h hashall (bash) 


-了 


trackall (ksh) 


histexpand 
keyword 


monitor 


noexec 


privileged 


physical 


nounset 


verbose 


xtrace 


-bgnicée 


emacs 


可 用 性 人 


POSIX 
ksh88, 


POSIX 


bash 
POSIX 


POSIX 
POSIX 
POSIX 


bash 


bash, ksh88, 


ksh93 
POSIX 


POSIX 


bash, ksh88, 


ksh93 
bash 


ksh88, ksh93 
bash, ksh88, 


ksh93 

POSIX 
POSIX 
POSIX 


ksh88, ksh93 


bash, ksh88, 


ksh93 


ksh93 


第 站 条 间 


乌 述 


导出 所 有 接续 的 已 定义 变量 。 
数组 指定 。set +A 不 会 清除 数组 。 详 见 14.3.6 
节 。 ! 


马上 显示 工作 完成 的 信息 ， 而 不 是 等 待 下 一 个 
提示 。 为 交互 式 使 用 所 设计 。 


启用 插 弧 展开 。 上 默认 值 是 启用 的 。: 详 见 14.3.4。 
不 允许 > 重 导 至 已 存在 的 文件 , 但 > | 运算 符 会 
使 此 选项 的 设置 无 效 。 为 交互 式 使 用 所 设计 。 
当 命令 以 非 零 状 态 离开 而 结束 Shell。 

停 用 通 配 字符 展开 。 

在 函数 被 定义 时 ， 找 出 及 记得 自 函 数 主体 中 调 
用 命令 的 位 置 ， 而 不 是 在 函数 执行 时 做 这 件 事 


(XSI), 


启用 ! 风格 的 历史 展开 。 职 认 值 是 启用 的 羡 。 


将 所 有 变量 指定 放 进 环境 里 ， 即 便 它们 位 居 命 
令 的 中 间 。 这 是 已 过 时 的 功能 且 不 应 该 再 使 用 。 
启用 工作 控制 (默认 值 是 启用 的 ) 。 为 交互 式 使 
用 所 设计 。 


读 取 命令 并 检查 是 否 有 语法 错误 ， 但 不 要 执行 
它们 。 交 互 模式 下 的 Shell 允许 忽略 此 选项 。 


尝试 在 更 安全 的 模式 运作 。 细部 的 处 埋 方式 在 
各 Shell 间 都 有 所 不 同 , 请 参考 你 Shell 的 文件 。 


使 用 实体 的 目录 结构 ， 执 行 改变 目录 的 命令 。 
排序 位 置 型 参数 。 


读 取 并 执行 命令 然后 离开 。 这 是 过 时 的 用 法 , 它 


是 为 了 与 Bonrne Shell 的 兼容 性 且 不 应 该 再 使 用 。 


将 未 定义 的 变量 视 为 错误 ， 而 非 null。 


在 命令 执行 之 前 ，( 逐 字 地 ) 显示 它们 。 
在 命令 执行 之 前 ， 显 示 它 们 : (于 展开 之 后 ) 。 


“自动 地 降低 所 有 后 台 执行 ( 带 有 &) 之 命令 优先 


权 。 


使 用 emacs 风格 的 命令 列 编辑 。 为 交互 式 使 用 
所 设计 。 
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表 14-2，set 的 Shell 选 项 ( 续 ) I 
短 选项 -0 形式 可 用 性 ”和 报 述 ， 


gmacs ksh88，ksh93 ”使 用 GNU emacs 风 格 的 命令 列 编辑 。 为 交 互 式 
使 用 所 设计 。 

history bash 启用 命令 历史 功能 ， 默 认 值 为 启用 的 。 

ignoreeof POSIX 停 用 CtrlL-D 离 开 Shell。 ” 

markdirs ksh88，ksh93 ”执行 通 配 字符 展开 时 ， 将 /附加 到 目录 。 

nolog POSIX 停 用 对 函数 定义 所 执行 的 命令 历史 功能 。 

pipefail ksh93 令 管道 离开 状态 是 上 一 个 失败 命令 的 状态 ， 或 
是 如 运作 无 误 , 则 为 零 。 仅 ksh93n 或 更 新 版 适 
用 。 

posix bash 启用 全 POSIX 兼容 功能 。 

vi POSIX 使 用 vi 式 的 命令 列 编辑 ,为 交互 式 使 用 所 设计 。 


viraw . ksh88，ksh93 ”使 用 vi 式 的 命令 列 编辑 。 为 交互 模式 使 用 所 设 
 ““ 计 。 此 模式 较 set: -o vi 更 消耗 使 用 CPU。 





注 : 若 你 使 用 bash， 我 们 建议 关闭 此 功能 。 


14.2 bash 的 shopt 命令 


bash Shell 除 了 可 使 用 set 命令 的 长 选项 与 短 选项 之 外 ， 另 还 有 shopt 命令 ， 可 停 用 
与 启用 选项 。 


bash 3.0 版 的 选项 列表 如 下 。 八仙 和 全 人 和 人 人 它们 设置 时 的 
行为 模式 : 


caQab1e_vars 
当 ca 的 参数 不 是 目录 时 ，bash 会 将 它 视 为 变量 名 称 ， 其 值 为 目标 目录 。 
cdspell 
如 果 cq 至 目录 的 操作 失败 ，bash 会 试图 进行 多 次 微 幅 的 拼 字 修 正 ， 看 看 是 否 能 
找到 真正 的 目录 。 如 果 找 到 正确 的 , 它 会 显示 名 称 , 并 切换 至 经 运算 过 的 目录 。 此 
选项 仅 于 交互 式 Shell 下 运作 。 
checkhash ee | a . a, 
当 bash 在 路 径 查 找 之 后 找到 命令 , 它 会 将 路 径 查找 的 结果 存储 在 杂 次 表格 中 ,此 
举 可 加 速 下 一 次 相同 命令 的 执行 。 当 命令 第 二 次 被 执行 时 ，bash 便 会 执行 存储 于 
杂凑 表格 里 的 命令 。 有 了 这 个 选项 , pas 会 在 执行 它 之 前 ; 先 验 证 存储 在 杂凑 表 
格 中 的 文件 名 真 的 存在 。 如 果 找 不 到 ，bash 便 会 按照 正规 方式 ， 进 行路 径 查 找 。 
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shopt (bash) 
语法 
shopt [ -pgqsu ] [ -o ] [ option-name ... ] 
用 途 
当 Shell 选项 加 入 至 bash 时 ， 进行 集中 控制 ， 而 非 增生 的 set 选项 或 Shell 
变量 。 
主要 选项 
-0 
限制 选项 为 那些 可 以 用 set -o 设 置 的 。 
一 也 
以 过 于 重读 的 形式 打印 输出 。 
静默 模式 。 其 离开 状态 可 指出 选项 是 否 被 设置 。 以 多 选项 而 言 , 如 果 它们 
都 是 启用 的 ， 则 状态 为 震 ， 否则 即 为 非 索 。 


设置 (启用 ) 给 定 的 选项 。 
a . 
解除 设置 ( 停 用 ) 给 定 的 选项 。 
如 果 -S 与 -u 不 带 指名 的 选项 , 则 分 别 显示 设置 或 解除 设置 的 选项 列表 。 
行为 模式 

控制 各 种 内 部 Shell 选项 的 设置 。 未 带 选 项 或 使 用 -P 时 ， 则 显示 设置 。 使 用 

-p， 会 以 可 供 稍 后 重读 的 形式 显示 设置 。 
滞 侣 

仅 bash 和 过 用 ， ksh 则 否 。 














checkwinsize 
在 每 个 命令 之 后 , bash 都 会 检查 窗口 大 小 , 并 于 窗口 大 小 变更 时 , 更 新 LINES 与 
COLUMNS 变量 。 
cmahi st 
bash 将 多 行 命令 的 所 有 行 都 存储 于 历史 文件 里 。 这 使 我 们 得 以 重新 编辑 多 行 命令 。 
dotglob 


pash 在 文件 名 展开 的 结果 里 包含 名 称 开头 为 ，( 点 号 ) 的 文件 。 
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execfail 
如 果 bash 无 法 执行 exec 内 置 命令 所 给 定 的 命令 ， 则 bash 不 会 离开 ， 见 7:3.2 
节 。 在 任何 状况 下 ， 如 果 exec 失败 ， 则 交互 式 Shell 不 会 离开 。 
expand_aliases 
bash 会 展开 别名 。 这 是 交互 式 Shell 的 默认 值 。 
extdebug 
bash 启动 除 虫 程序 所 需要 的 行为 : 


。 declare -F 为 每 个 水 数 名 称 参数 显示 来 源 文 件 名 与 行 编 号 。 
。 由 DEBUG 捕捉 所 执行 的 命令 失败 时 ， 则 跳 过 下 一 个 命令 。 


。 在 Shell 函数 或 是 source 或 . (点 号 ) 取 用 的 脚本 内 ， 由 DEBUG 捕捉 所 执行 
的 命令 失败 时 ， 则 Shell 会 模拟 调用 return。 


。 ”数组 变量 BASH_ARGC 被 设置 。 每 个 元 素 都 为 相对 应 的 函数 或 点 号 脚本 引用 , 保 
留 参数 的 数目 。 同 理 ，BASH_ARGV 数 组 变量 也 被 设置 ， 其 每 个 元 素 为 传递 给 函 
数 或 点 号 脚本 的 其 中 一 个 参数 。BASH_ARGV 函数 为 一 个 堆栈 ， 在 每 次 调用 时 ， 
值 便 往 前 推进 。 因 此 ， 最 后 的 元 素 即 为 最 近 函 数 或 脚本 引用 的 最 后 一 个 参数 。 


。 ”启用 函数 追踪 。 通 过 (…) 所 引用 的 命令 替换 、Shell 函数 与 子 Shell， 都 继承 
DEBUG 与 RETURN 捕捉 (RETURN 捕捉 在 return 执行 时 被 使 用 ， 或 是 一 个 以 
. (点 号 ) 或 source 取 用 的 脚本 结束 ) 。 


。 启用 错误 追踪 。 通 过 (…) 所 引用 的 命令 替换 、Shell 函数 与 子 Shell， 都 继承 


ERROR 捕捉 。 
extglob 
bash 会 扩展 样式 比 对 ， 类 似 ksh88 那样 。 这 部 分 请 详 见 14.3:3 节 。 
extquote 
bash 允许 在 ${variable} 展 开 里 ， 以 双 引 号 框 住 $'...' 与 $"..."。 
failglob 


当 样 式 不 相符 于 文件 名 时 ，lbasnh 会 产生 错误 。 
force_fignore 


完成 时 , bash 会 忽略 与 FIGNORE 里 字 尾 列表 比 对 相符 的 单词 , 就 算 这 样 的 单词 是 
唯一 可 能 之 完成 。 


.gnu_errfmt 


bash 会 以 标准 GNU 格式 显示 错误 信息 。 
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histappend 
bash 将 命令 附加 至 HTSTFTLE 蛮 时 所 指名 的 文件 ， 而 非 覆 盖 文 件 ，。 
histreedit 
当 历史 替换 失败 时 ， 如 果 使 用 readline 程 序 库 ， 则 bash 允许 你 重新 编辑 失败 的 
替换 。 
histverify 
使 用 readqline，bash 会 将 历史 替换 的 结果 ， 载 人 至 编辑 缓冲 区 ， 供 进一步 处 理 。 
hostcomplete 


bash 在 遇 到 带 有 @ 字符 的 单词 时 ， 会 以 readline 执 行 主 机 名 称 的 完成 。 此 默认 
. 值 为 开启 的 。 


huponexit 
?ash 会 在 交互 式 登录 Shell 离开 时 ， 传送 SIGHUP 给 所 有 的 工作 。 
interactive _Comments ye 
”bash 视 # 为 交互 式 Shell 下 注释 的 起 始 。 些 默 认 值 为 开启 的 。 
lithist : . 
与 cmdhist 选项 合用 时 ，bash 会 存储 历史 里 的 多 行 命令 ,使 用 内 验 换 行 字符 而 
非 分 号 。 
login_ Shell | | 
bash 会 在 它 以 登录 Shell 方式 被 启动 时 设置 此 选项 。 它 无 法 被 改变 。 
mailwarn 
bash 在 检查 邮件 时 , 如 发 现 文件 访问 时 间 已 变更 , 即 显 示 “The mail in mailfile 
has been read”(mailfile 里 的 邮件 已 被 读 取 ) 的 信息 。 
no_empty_cmd_ completion 
当 命令 是 尝试 在 一 空 行 上 完成 时 ，bash 不 会 查找 $SPATH。 
nocaseglob 
bash 在 文件 名 比 对 时 忽略 大 小 写 。 
nullglob 
. bash 会 使 得 不 相符 于 任何 文件 的 样式 变 成 null 字符 串 ， 而 不 再 是 表示 它们 自己 。 
然后 , 此 null 字 符 串 会 通过 更 进一步 的 命令 列 处 理 而 被 删除 。 事实 上 , 完全 不 相符 
的 样式 ,会 自命 令 列 消失 。 
progcomp 


此 选项 启动 可 程序 化 的 完成 功能 。 详 见 bash(1) 手 册页 。 其 默认 值 为 开启 。 
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promptvars 
bash 会 在 各 种 提示 符号 字符 串 的 值 上 执行 变量 与 参数 展开 。 其 默认 值 为 开启 。 
restricted_ Shell 
‘bash 将 此 值 设 为 真 时 ， 表示 是 以 限制 性 Shell 方式 运作 。 此 选项 无 法 被 改变 。 起 
始 文件 会 查询 此 选项 以 决定 其 行为 模式 。 如 果 想 对 限制 性 Shell 有 进 一 一 步 了 解 ， 可 
参考 15. 2 
shift_verbose 
如 果 shift A 时 ,， 则 bash 人 不信 息 。 
sourcepath 
bash 使 用 $PATH 为 source 与 .命令 查找 文件 。 默认 值 为 启动 的 。 如 果 关 闭 , 则 
你 必须 使 用 完整 或 相对 路 径 名 称 查 找 文件 。 


XPg_echo 
bash 的 内 置 echo 会 处 理 反 和 斜 线 转 义 符 。 
14.3 共通 的 扩展 


bash 与 ksh93 都 支持 大 量 超过 POSIX Shell 的 扩展 。 本 节 要 说 明 的 是 那些 重 到 的 扩展 ， 
也 就 是 ， 两 个 Shell 都 提供 的 相同 功能 ， 及 以 相同 的 方式 支持 。 


14.3.1 select 循环 
bash 与 ksh 都 支持 select 循环 , 可 轻松 产生 简易 式 选 单 。 其 语法 单纯 , 但 做 的 事 却 很 
多 : 


select name [in 1ist] 
do 
可 以 使 用 Sname 的 语句 ... 


done 


此 与 一 般 的 for 循环 具有 相同 的 语法 ， 只 是 关键 字 select 不 同 。 也 就 像 for 循环 一 
样 : 你 可 以 省 略 in 1ist 且 它 会 默认 为 "$e"s 也 就 是 被 括 弧 起 来 的 命令 列 参 数 的 列表 。 


select 的 行为 如 下 : | | 

1. 为 1ist 里 的 每 个 项 目 产生 选单 ， 将 每 个 选择 格式 化 为 数字 ， 

2. ”显示 PS3 的 值 作为 提示 符号 ， 并 等 待 用 户 输入 一 数字 

3. :存储 选 定 的 选择 在 变量 name 中 ， 以 及 存储 选 定 的 数字 在 内 置 变量 REPLY 里 
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4. ”执行 主体 内 的 语句 
5. 持续 重复 处 理 程序 ( 稍 后 会 说 明 如 何 离开 ) 


以 范例 说 明 应 较 易于 了 解 此 处 理 过 程 。 假设 你 需要 知道 , 如 何 为 一 个 分 时 系统 正确 地 设 
轩 TERM 变量 ， 而 分 时 系统 使 用 不 同 种 类 的 显示 终端 ， 你 没有 将 终端 直接 连 到 你 的 计 
算 机 ;相反 地 , 你 的 用 户 是 通过 终端 服务 器 进行 通 入 。 虽然 Lelnet 协议 可 以 传递 TERM 
环境 变量 ,但 终端 服务 器 还 没有 聪明 到 能 这 么 做 。 意 即 tty (序列 设备 ) 号 码 ,并 不 能 决 
定 终端 的 形态 。 


因此 ， 除了 在 登录 时 提示 用 户 终端 类 型 之 外 ， 你 没有 其 他 选择 。 要 作 这 个 操作 ， 你 可 以 
将 下 列 代码 置 放 在 /etc/profile (假定 你 有 固定 的 一 组 已 知 终端 类 型 ) 里 : 


PS3='terminal? ' 
select term in gl35a t2000 s531 vt99 
do 
if [ -n "Sterrm" ] 
then 
TERM=$term 
echo TERM is STERM 
export TERM 
break “ 
else 
echo 'invalid.， 
了 
done 


当 你 执行 此 代码 时 ， 会 看 到 这 样 的 选单 : 


1) gl35a 
' 2) t2000 
3) s531 
4) vt99 
terminal? 


内 置 Shell 变量 PS3 包含 select 使 用 的 提示 字符 串 ， 其 默认 值 为 "#? "。 为 此 理由 ， 
上 述 代 码 的 首 行 将 它 设 置 为 更 相关 的 值 。 


select 语句 是 从 选择 列表 中 构建 选单 。 如 果 用 户 输入 有 效 数字 《1 至 4) ， 变 量 term 
被 设置 为 相对 应 值 ， 如 果 它 是 null (用 户 只 是 按 下 Enter) ，Shell 会 再 打印 一 次 选单 。 


循环 体 里 的 代码 会 检查 term 是 否 非 null。 如 果 是 , 则 指定 $term 为 环境 变量 TERM, 导 
出 TERM 并 显示 确认 信息 ， 之 后 break 语句 离开 select 循环 。 如 果 term 是 null， 则 
代码 会 显示 错误 信息 ， 并 再 重复 提示 符号 (但 不 是 选单 )。 


break 语 句 是 离开 select 循环 的 常用 方式 (用 户 也 可 以 输入 Ctrl-D 表 示 输 入 结束 , 以 
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ee et ee te TR 一 方式 , 但 对 Shell 程 序 
设计 师 并 没有 什么 帮助 )。 


ee 
名 称 。 通 过 引文 的 字符 字符 串 作为 选单 项 目 完成 此 任务 ， 之 后 再 使 用 ca s e 决定 
terminfo 名 称 即 可 。 新 的 版 本 呈现 于 例 .14-2。 


例 14-2: 结合 更 人 性 化 的 选单 项 目 与 Select 


echo 'Select your terminal type:! 
PS3='terminal? : 
select term in \ 
‘Givalt GL35a’' \ 
‘Tsoris T-2000: \\ 
'Shande 531: \ 
'Vey VTI99! 
do 
case S$REPLY in 
1) TERM=g135a ;; 
2) TERM=t2000 ;; 
3) TERM=s531 ;; 
4} TERM=vt99 ;; 
*) echo "invalid.' 
esac 
if [[ -n S$term ]]; then 
echo TERM is S$TERM 
export TERM 
break 


fi 

done 

这 样 的 代码 看 来 与 传统 程序 的 选单 子 程序 类 似 , 尽管 select 仍 提供 了 将 选单 选择 转换 
为 数字 的 捷径 。 我 们 让 每 个 选单 选择 自己 独立 一 行 是 为 了 可 读 性 , 不 过 还 是 得 加 上 接续 
字符 ， 以 让 Shell 避 开 抱怨 语法 。 


这 里 是 在 执行 此 程序 时 ， 用 户 将 会 看 到 的 ， 


1) Givalt GL35a 
2) Tsoris T-2000 
3) Shande 531 

4) Vey VT99 
terminal? 


这 比 先前 代码 的 输出 更 能 提供 适 切 的 信息 。 


进入 select 循环 体 时 ，Sterm 则 为 4 个 字符 串 其 中 之 一 (如 果 用 户 输入 无 效 选择 ， 则 
为 null ) ， 然而 内 置 变量 REPLY 则 会 包含 用 户 所 选 定 的 数字 。 我 们 需要 case 语句， 以 
指定 正确 的 值 给 TERM， 并 使 用 REPLY 的 值 作为 case 选 定 器 。 
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当 case 语 名 完 成 后 ，if 会 检查 用 户 的 选择 是 否 有 效 , 这 和 前 面 的 解决 方案 一 样 。 如 果 
选择 有 效 , 则 TERM 已 被 指定 。 所 以 代码 只 要 显示 确认 信息 , 导出 TERM, 及 离开 select 
循环 。 如 果 非 有 效 选择 ， 则 select 循环 会 重复 提示 号 ， 及 再 一 次 经 过 整个 程序 。 

在 select 循环 中 ,如 果 REPLY 设 置 为 null 字 符 串 ， 则 Shell 会 再 打印 一 次 选单 。 这 种 


状况 是 当 用 户 按 下 Enter 的 时 后 发 生 。 不 过 ， 你 也 可 以 直接 将 REPLY 设 为 null 字符 串 ， 
强迫 Shell 再 打印 一 次 选单 。 


TMOUT (time out) 变量 会 对 select 语句 造成 影响 。 在 进入 select 循环 之 前 ， 先 将 它 
设置 为 某 个 秒 数 n， 如 果 在 这 段 时 间 内 没有 任何 输入 数据 ， 则 select 会 离开 。 


14.3.2 扩展 性 Test 工具 


ksh 提出 扩展 性 test 工具 ， 以 [ [与 ] ] 呈现 。 这 些 是 Shell 的 关键 字 ， 对 于 Shell 语法 
是 特殊 的 ， 且 非 命令 。bash 近期 版 本 也 采用 此 特殊 工具 。 


[[...]] 与 一 般 test 及 [...] 命 令 不 同 之 处 在 于 不 处 理 单词 展开 与 样式 展开 ( 通 配 字 
符 ) 。 意 即 它 不 需要 使 用 引号 以 处 理 引 文 操作 。 事 实 上 , [[... 11 的 内 容 会 独自 形成 一 
个 子 语 言 ， 让 它 更 易于 使 用 。 大 部 分 的 运算 符 都 与 test 所 使 用 的 相同 。 完 整 列表 如 表 
14-3 所 示 。 


表 14-3: 扩展 test 运算 符 


运算 符 ， 仅 bash 或 ksh 适 用 如 果 为 此 状况 ， 则 为 真 

-afie ， file 存 在 。( 已 过 时 ， 请 使 用 -e) 

eae fi1e 为 区 块 设备 文件 。 

= file 为 字符 设备 文件 。 

-C file ksh file 为 连续 性 (contiguous) 文件 ( 绝 大 多 
数 UNIX 版 本 不 支持 )。 

-d file file 为 目录 。 

-e file file 存 在 。 

-f file file 为 一 般 文件 。 

-g file file 设 置 setgid 位 。 

-G file file 的 群 组 ID 同 于 Shell 下 有 效 的 群 组 ID。 

-h file | file 为 符号 性 连接 。 

-k file .| . i ，file 设 置 黏 着 (sticky) 位 。 

-1 file ksh file 为 符号 性 连接 〈( 仅 运作 于 使 用 /bin/ 


test -1 视 试 的 符号 性 连接 系统 上 )。 
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表 14-3: 扩展 test 运算 和 ( 续 ) 


运算 符 ““”“““，“ 仪 bash 或 Ksh 适 用“ 如果 为 此 状况 ， 则 为 真 

-L file file 为 符号 性 连接 。 

-n string string 为 提 null。 

-N file bash file 会 被 修改 ， 因 为 它 被 读 取 。 

-0O option option 被 设置 。 

-0 file | file 的 拥有 者 为 Shell 的 有 效用 户 ID。 

-p file . file 为 管道 或 命名 的 管道 (FIFO 文件 )。 

-rz files | file 是 可 读 取 的 。 

-s file ; ”file 非 空 。 

-S file file 为 socket。 

< 老 瑟 文件 描述 代码 xn， 指向 终端 。 

-u file file 设 置 setuid 位。 

-w file file 是 可 写 入 的 。 

-x file file 是 可 执行 的 ， 或 是 可 被 查找 的 一 个 目 
录 。 

-Zz string string 是 null。 

fileaA -nt fileB . fileA 比 fileB 新 ， 或 fileB 不 存在 。 

filea -ot fileB fileA 比 fileB 旧 , 或 fileB 不 存在 。 

filea -ef fileB fileA 与 fileB 指 向 相同 文件 。 

string = pattern ksh string 相符 于 pattern (可 包含 通 配 字 
符 )。 已 过 时 ; 请 使 用 == 

string = = pattern string 相符 于 pattern (可 包含 通 配 字 
符 )。 

string != pattern string 不 相符 于 pattern。 

stringA < stringB stringa 在 目录 里 的 顺序 先 于 stringB。 

stringa > stringB stringa 在 目录 里 的 顺序 在 strin9B 之 后 。 

exprA -eq exprB 算术 表示 式 expra 与 exprB 相 等 。 

exprA -ne exprB 算术 表示 式 expra 与 exprB 不 相等 。 

EexprA -lt exprB expr2 小 于 exprB。 

exprA -gt exprB exprA 大 于 exprB。 

exprA -le exprB exprA 小 于 或 等 于 exprB。 

exprA -ge exprB exprA 大 于 或 等 于 exprB。 | 
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运算 符 可 以 用 圆 括 弧 框 起 , 结合 && (AND) 与 11 (OR) 进行 逻辑 处 理 ， 也 可 使 用 ! 表 
示 反 向 。 当 使 用 /dev/fa/n 形 式 的 文件 名 时 , 它们 会 测试 开放 文件 描述 代码 4 的 相对 应 
属性 。 

运算 符 -eq、-ne、-1lt、-~le、-gt, 与 -ge 在 ksh93 里 为 已 过 时 的 用 法 ， 改 用 let 命 
令 或 ((...))(let 命令 或 ((...)) 在 14.3.7 节 里 有 简短 的 说 明 ) 。 


14.3.3 扩展 性 样式 比 对 


ksh88 引 进 额 外 的 样式 比 对 工具 让 Shell 的 功能 更 强大 , awk 与 egrep 扩 展 正则 表达 式 得 
以 并 驾 齐 驱 【 正 则 表达 式 的 部 分 ， 详 见 3.2 节 )。 如 extglob 选 项 被 启用 ， 则 bash 也 支 
持 这 些 运算 符 (它们 在 ksh 里 总 是 为 启用 状态 )。 这些 额外 工具 的 摘要 整理 , 见 表 14-4。 


表 14-4: Shell 与 egrep/awk 正则 表达 式 运算 符 的 比较 


ksh/bash sa egrep/awk 含义 

* ( exp) Exp* 存在 0 或 多 个 exp 

+ (exp) Eexp+ 存在 1 或 多 个 exp 

? (exp) exp? 存在 0 或 1 个 exp 
G(expI1exp21...) expllexp21... exp1l1 或 exp2 或 … 

! (exp) (none) 所 有 不 相符 于 exp 的 





Shell 正 则 表达 式 与 标准 正则 表达 式 的 标记 方式 相当 类 似 ， 不 过 它们 所 表示 的 意义 不 同 。 
因为 Shell 会 将 表示 式 如 davelfreaQlbob 解 译 为 命令 的 管道 操作 ， 所 以 你 必须 使 用 
e(davelfredQlbob) 这 样 的 方式 。 


举例 来 说 : 


. @(dave1fred1bob) 比 对 相符 的 有 dave、fred 或 bob。 


。 “*(davelfredlbob) 意 即 存在 0 或 多 个 dave、fred 或 bob。 此 表示 式 相符 的 字符 
串 , 像 null 字 符 串 、 dave、 davedave. fred, bobfred. bobbobdavefredbobfred 
等 等 。 


。 +(dave|fred|bob) 相 符 于 上 述 所 有 字符 串 ，null 字符 串 除外 。 
. ? (dave|fred|]bob) 相 符 于 null 字符 串 ，dave、fred 或 bob。 
. ! (dave1fred|1bob) 相 符 于 dave、fred 或 bob 以 外 的 任何 字符 囊 。 


我 们 必须 再 次 强调 : Shell 正则 表达 式 里 还 是 可 以 包含 标准 Shell 通 配 字符 。 因 此 ,Shell 
通 配 字 符 ?( 相 符 于 任何 单一 字符 ) 等 同 于 egrep 或 awk 的 . (点 号 )， 且 Shell 的 字符 
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集运 算 符 [. . . ] 也 与 那些 工具 相同 〈 注 1) 。 举 例 来 说 ， 表 示 式 +([ [saigit:]1) 相 符 
的 是 数字 : 也 就 是 一 个 或 多 个 数字 。Shell 通 配 字符 * 则 等 同 于 Shell 正 则 表达 式 的 * (? ) 。 
你 甚至 可 以 梨 状 化 正则 表达 式 :+ ( [Tf:adigit:1]1! (1[:upper: 11)) 直 示 相符 于 一 个 或 
多 个 数字 ， 或 是 非 大 写字 母 。 


有 两 个 egrep 与 awk 正则 表达 式 运 算 符 在 Shell | Gu 


。 。 行 开头 与 行 结束 运算 符 ^ 5$ ee 
。 ”单词 的 起 始 与 单词 的 结束 运算 符 \< 与 \> - 


本 质 上 ,“ 与 $ 总 是 在 那儿 ， 只 是 样式 前 后 带 有 * 字符 时 会 停 用 此 功能 。 我 们 以 下 面 的 
.范例 讲解 这 之 间 的 差异 : 1 有 


$ ls * 列 出 文件 
biff bob frederick sh tankabob; 
$ Shopt -8 extglob 启用 扩展 样式 比 对 (Bash) 
$ echo @{davelfredlbob) ., : “ ,只 相符 于 dave、fread 或 bob 的 文件 
bob , 
$ echo *@{(davelfredlbob)* * “” ”加 入 通 配 字 符 … 
bob frederick shishkabob .. ，” ,更 多 文件 相符 . 


ksh93 支 持 更 多 的 样式 比 对 运算 符 , 但 因为 本 节 是 介绍 bash 与 ksh93 之 间 通 用 的 部 分 ， 
所 以 介绍 至 此 为 止 。 如 果 想 了 解 更 多 细节 ， 可 见 参 考 书 目 中 的 Learning the Korn Shell 
(O’Reilly) . 


14.3.4 括 弧 展开 z 
括 弧 展开 (Brace expansion) 借 自 于 Berkeley C Shell csh 的 功能 ， 且 两 种 Shell 
都 支持 它 。 括 弧 展 开 是 让 输入 更 轻松 的 方法 。 假 设 你 拥有 下 列 文件 : 


$ 1I8 

cpp-args.¢ cpp-lexic cpp-out.G cpp-parse:c 
如 果 你 想 编辑 这 4 个 文件 里 的 其 中 3 个 , 只 要 输入 vi cpp-{args, lex,parse} .c, Shell 
便 会 展开 为 vi cpp- args.c cpp-lex.c cpp- Be. c “而 且 括 弧 替换 还 可 以 巢 状 化 。 
例如 ; 





$ echo cpp-{targs,l{e,o}x,parse}.c 
cpp-args.c cpp-lex.c cpp-lox.c cpp-parse.c 





注 1: 。 以 这 点 来 说 , 乃 相 同 于 grep、 sed、 ed、 vi 等 等 ,但 是 一 个 有 名 的 差异 是 : Shell 在 [...] 
里 使 用 ! 表示 反 向 之 意 ， 而 不 同 的 工具 则 都 使 用 ~^。 
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14.3.5 进程 蔡 换 加 
进程 替换 (Process substitution ) 可 以 让 用 户 开启 多 个 进程 数据 流 ， 再 将 它们 虽 给 单一 
程序 处 理 。 例 如 : 


awk '...' <(generate_data) <(generate_more_data) 


(请 注意 此 处 的 圆 括 弧 也 为 语法 的 一 部 分 ， 应 该 逐 字 键 信 。) 这 里 ，generate_data 与 
generate_more_data 表 示 的 是 用 以 产生 数据 流 的 任意 命令 , 包括 管道 awk 程 序 依 序 
处 理 每 个 数据 流 ， 不 需 理 会 数据 是 否 来 自 多 个 来 源 。 此 部 分 图 解说 明 于 图 14-1.a。 


进程 替换 也 可 用 于 输出 , 特别 是 与 tee 程 序 合用 的 时 候 , 它 会 将 其 输入 传送 至 多 个 输出 
文件 以 及 标准 输出 。 例 如 : 


generate_data | tee >(sort | uniq > sorted data) \ 
>(mail -s ‘raw data' joe) > raw_data 
此 命令 使 用 tee: (1) 传送 数据 至 管道 ， 以 排序 与 存储 数据 ，(2) 传送 数据 至 mail 程 
序 ， 给 用 户 joe; (3) 将 原始 数据 重 导 至 文件 。 这 部 分 如 图 14-1 所 示 。 结 合 tee 的 进 
程 替换 ,让 你 转 义 出 “一 个 输入 、 一 个 输出 ”的 传统 UNIX 管道 思维 模式 ， 你 可 以 将 数 
据 切 分 为 多 个 输出 数据 流 , 还 可 以 将 多 个 输入 数据 流 接合 为 一 个 。 


[DL process orpipeline 
入 总 fl 


wal 





14-1: 输入 、 输 出 数据 流 的 进程 替换 
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进程 替换 只 有 在 支持 /dev/fda/n 特 殊 文件 的 UNIX 系 统 下 可 使 用 , 为 命名 访问 到 已 开启 
之 文件 描述 代码 。 许 多 现行 UNIX 系统 ,包括 GNU/Linux, 都 支持 此 功能 。 与 使 用 括 弧 
展开 一 般 , 当 ksh93 是 从 原始 码 编译 建 置 而 成 时 , 则 它 默 认为 启用 的 。pash 必 启用 之 。 


14.3.6 索引 式 数 组 
ksh93 与 bash 两 者 都 提供 索引 式 数组 工具 ， 虽 然 它 很 好 用 ， 但 它 的 限制 比 提供 类 似 功 


能 的 传统 程序 语言 还 多 。 特 别 是 ， 索引 式 数组 仅 为 一 次 元 (也 就 是 不 能 有 数组 中 的 数 
组 )。 索引 自 0 起 始 。 它们 可 以 是 任何 的 算术 表示 式 : Shell 会 自动 评估 表示 式 产生 索引 。 | 


有 三 种 方式 可 以 将 值 指 定 给 数组 里 的 元 素 。 第 一 种 为 直觉 式 : 使 用 标准 Shell 变量 指定 
语法 ， 将 数组 素 引 放 在 方 括 弧 ([]) 里 ， 例 如 ， 


nicknames [2]=bob 
nicknames [3]=ed 


将 值 bob 与 ed 分 别 置 人 数组 nicknames 的 索引 2 与 3 元 素 中 。 就 像 正规 的 Shell 变量 
一 样 : 指定 至 数组 元 素 里 的 值 ， 都 会 视 为 字符 字符 囊 。 
第 二 种 将 值 指定 至 数组 里 的 方式 ， 是 使 用 set 语句 的 变 体 。 语 句 如下: 

Set -A aname vall val2 val3 ... | | 
此 语句 建立 数组 aname (如 果 它 原先 不 存在 的 话 ) ， 然 后 指定 vai7 至 aname[0] 、va12 
至 aname [1] , 以 此 类 推 。 如 你 所 想 , 这 种 方式 比 载 和 人 一 组 初始 值 至 数组 里 方便 得 多 。 这 


也 是 xsh 第 一 个 以 单一 操作 指定 多 个 数组 元 素 的 方式 , 我 们 特别 提 它 好 让 你 在 已 存在 的 
脚本 中 认得 它 。 





注意 ; bash 不 支持 set -A。 








第 三 种 方式 (也 是 建议 的 使 用 方式 ) 是 使 用 复合 指定 形式 ， 
aname= (vall val2 val3) 


欲 取 出 数组 中 的 值 ， 语 法 为 ${aname[i]}。 例如: $ {nicknames [2]} 的 值 为 bob。 索 
引 立 可 以 是 算术 表示 式 。 如 果 你 在 索引 处 使 用 * 或 @, 则 值 将 是 以 空格 隔 开 的 所 有 元 素 。 
省 略 索 引 ($nicknames) 是 等 同 于 标明 索引 0 (${nicknames[0]}))。 


现在 , 我 们 从 较 不 一 样 的 角度 审视 数组 。 假设 , 我 们 只 指定 了 两 个 值 予 nicknames, 也 
就 是 前 面 的 例子 。 如 果 你 输入 echo "${nicknames[*]}", 会 看 到 这 样 的 输出 ; 


bob ed 
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换 甸 话说 ，nicknames [0] 与 nicknames [1] 不 存在 。 如 果 你 输入 : 


”niclknames[9] -pete 
nicknames [31]=ralph 


然后 再 echo "${nicknames[*]}"， 则 输出 看 起 来 就 像 这 样 : 


bob ed pete ralph 


这 也 就 是 为 什么 先前 我 们 说 它 它 是 nicknames 的 索引 2 与 3, 而 不 说 它 是 nicknames 的 第 
二 与 第 三 个 元 素 。 任何 未 指定 值 的 数组 元 素 都 不 存在 ， 如 果 你 试图 访问 其 值 ,会 得 到 null 
字符 串 。 


你 可 以 通过 "$faname[8]}" (使 用 双 引号 ) 保留 置 入 数组 元 素 内 的 任何 空白 字符 , 而 非 
以 ${taname[*]}。 正 如 你 会 使 用 "$8@"， 而 不 是 $* 或 "$*"。 


两 种 Shell 都 支持 ${#aname[*]} 运 算 符 ,告诉 你 数组 里 定义 的 元 素 有 多 少 个 。 因 此 
$s{#nicknames[* ] } 的 值 为 4。 请 注意 : [*] 是 必需 的 ， 因 为 单独 的 数组 名 称 会 被 解 译 
为 第 0 个 元 素 。 意思 就 是 ，$ { #nicknames] 等 同 于 nicknames [0] 的 长 度 。 因 为 
nicknames [0] 不 存在 ， 所 以 ${#nicknames} 的 值 为 0， 即 null 字符 串 的 长 度 。 


你 可 以 将 数组 认为 是 采取 一 个 整数 输入 变量 的 数学 函数 , 及 回 传 一 相对 应 值 (该 数字 里 
的 元 素 ) 。 如 果 你 如 此 做 , 则 你 会 了 解 为 什么 数组 是 “数字 主 控 ”的 数据 结构 。 由 于 Shell 
的 程序 设计 工作 多 半 倾 向 于 字符 字符 串 与 文字 的 处 理 ， 更 其 于 数字 ， 所 以 索引 式 数 组 工 
具 并 未 广泛 被 使 用 。 


人 
问题 , 用 户 可 以 在 登录 时 选 定 终端 类 型 (TERM 环境 变量 ) 。 例 14-2 使 用 select 与 case 
语句 ， 呈 现 了 更 人 性 化 的 程序 版 本 。 


如 我 们 利用 select 架 构 ,将 用 户 的 数字 选择 存储 至 变量 REPLY 里 , 便 能 消除 整个 case 
架构 。 我 们 只 需要 一 行 代码 ， 将 所 有 可 能 的 TERM 存储 在 数组 里 ， 而 且 是 以 select 选 
单项 目 所 对 应 的 顺序 加 以 排序 。 之 后 ， 我 们 再 使 用 $SREPLY 为 数组 作 索 引 。 代 码 如 下 : 


termames={gl35a t2000 s531 vt99) 
echo :Select your terminal type:! 
PS3='terminal? ' . 
select ,term in.\ 

‘Givalt GL35a’ \ 

Tsoris T-2000: \ 

‘Shande 531' \ 

'Vey VT99 
do 

if {1[ -n Sterm ]]; then 

TERM=$ {termnames [REPLY-1]} 
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echo "TERM is STERM" 

export TERM 

break 

fi 
done 

此 代码 设置 数组 termames, 所 以 ${ttermames[0]} 为 gl35a、$:{termames[1]) 为 
t2000 等 等 。TERM=S${termnames [REPLY-1] } 主 要 是 取代 整个 case 架构 ， 通 过 使 用 
REPLY 为 数组 进行 索引 。 


这 两 个 Shell 都 知道 如 何 将 数组 索引 中 的 文字 解 译 为 数值 表示 ， 好 像 它 是 被 包 在 $( (与 
) ) 之 间 ， 即 该 变量 无 须 前 置 美元 符号 ($) 。 我 们 必须 将 REPLY 的 值 减 一 ， 因 为 数组 索 
引 自 0 起 始 ， 而 select 选单 项 目 编号 则 从 1 开始 。 


14.3.7 各 类 扩展 


这 里 又 是 另 一 串 长 长 的 列表 ， 这 次 的 内 容 是 bash 与 ksh93, 所 支持 的 POSIX Shell 小 型 
扩展 : 


脏 加 的 流浪 号 展开 | : 
POSIX 将 文字 ~ 定义 为 等 同 于 $HOME 与 ~user 一 user 的 根 自 录 。 这 两 个 Shell 
都 允许 使 用 ~+ 作 为 $4PWD (当前 工作 目录 ) 的 缩写 , 使 用 ~=' 作 为 $0OLDPWD (前 一 
个 工作 目录 ) 的 二 十。 


算术 命令 : 
POSIX 定 义 $((...)) 标 记 作为 算术 晨 开 ， 但 不 提供 任何 其 他 算术 操作 的 机 制 。 不 
过 ， 两 种 Shell 都 支持 两 种 直接 处 理 算 术 的 标记 ， 而 非 展开 : 
let "x=5+y" let 命令 ， 需 以 引号 框 起 
((x = 5 +Y)) ， “未 前 置 $， 自 动 的 用 双 圆 括 绝 引 起 来 


我 们 并 不 清楚 为 什么 POSIX 仅 将 算术 展开 标准 化 ， 可 能 是 由 于 你 可 以 使 用 : (do 
nothing) 命令 与 算术 展开 达到 相同 效果 ， 


: $((x= 5 +y)) 几乎 与 let 或 ((…)) 一 样 
x=$((5 + Y) ) ” 类 似 , 但 = 前 后 都 不 可 置 放任 何 空格 


有 个 不 同 之 处 ， 便 是 let 与 ((...)) 都 有 离开 状态 : 0 为 真 ttrue) 值 , 而 1 为 伪 
(false) 值 。 这 一 点 ， 让 你 能 在 if 与 while 语 句 里 使 用 它们 :* - 


while ((x != 42)) 
do * 
.。 任何 东西 ... 


done 
算术 的 for 循环 
两 个 Shell 都 支持 算术 的 for 循环 ， 它 和 awk、C 与 C++ 里 的 for 循环 很 相似 。 看 
起 来 就 像 这 样 ， 
www.TopSage.com 








410 第 14 章 
for {(init; condition; increment ) }》 
do 
循环 体 
done 
这 里 面 的 init、condition, 与 increment 任 一 个 ,都 可 为 Shell 的 算术 表示 式 ， 
正如 同 它 出 现在 $((...)) 里 那样 。 在 for 循环 里 使 用 ((...)) 语 法 相似 于 算术 评 
估 语 法 。 
当 你 需要 以 固定 次 数 执行 任务 时 ， 可 以 使 用 算术 的 for 循环 : 
for {({i = 1; i <= limit;y i += 1}}: 
do 
任何 需要 做 的 事情 
done 
附加 的 算术 运算 符 
POSIX 定义 了 可 置 于 算术 展开 $((...)) 里 的 运算 符 列表 。 两 种 Shell 都 支持 额外 


的 运算 符 ， 提 供与 C 完 整 的 兼容 性 。 特 别 是 两 个 Shell 都 允许 使 用 ++ 与 -- 分 别 执 
行 加 减 一 的 操作 ， 且 前 轰 或 置 于 结尾 的 形式 都 允许 (根据 POSIX 的 定义 ;++ 与 
-- 都 是 选择 性 的 ) 。 除 此 之 外 ， 两 个 Shell 都 支持 逗 点 运算 符 ， 它 可 以 让 你 在 单一 
表示 式 里 执行 多 个 运算 。 而且, 更 其 于 C 的 是 ; 两 个 Shell 都 接受 ** 作 取 震 操作 。 
运算 符 完整 列表 如 表 14-5 所 示 。 


case 语 甸 的 可 效用 厨 后 弧 比 对 


命令 替换 的 $(...) 语 法 ( 见 7.6 节 ) 已 由 POSIX 标 准 化 。 它 是 由 ksh88 引进 , 但 
bash 也 支持 之 。ksh88 在 $(...) 里 处 理 case 语 名 时 会 有 问题 , 尤其 是 关闭 用 的 
右 圆 括 弧 被 用 于 每 个 case 样式 时 ,都 会 终止 整个 命令 替换 。 要 解决 这 个 问题 , 在 
命令 替换 下 ，ksh88 必须 将 case 样式 包括 在 比 对 的 圆 括 弧 里 : 


Some command ${ ... 
case $var in 
( foo | bar ) SOme other command ;; 
( stuff: | junk ) something else again ;; 、 
esac 


2 
ksh93、bash 与 POSIX 都 可 在 case 选 择 器 里 使 用 一 个 可 选用 的 开启 圆 括 弧 ， 不 


过 并 不 是 一 定 要 这 么 做 (因此 ,ksh93 较 ksh88 聪 明 , 后 者 要 求 开 启 圆 括 弧 必 须 置 
于 $(...) 内 )。 


trap -p 显 示 硼 控 


根据 POSIX 说 明 ， 原 先 的 trap 命令 会 显示 Shell 的 捕捉 状态 ， 而 且 是 采取 Shell 
日 后 可 重新 读 取 的 形式 , 以 回复 相同 的 捕捉 。 两 种 Shell 都 允许 使 用 trap -p 显 示 
捕捉 。 
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使 用 <<< 的 即 傍 字 符 叫 


以 echo 产生 单行 输入 供 进 一 步 处 理 ， 是 相当 常见 的 用 法 。 
例如 : 


. echo $myvarl S$myvar2 | tr op | 


两 种 Shell 都 支持 我 们 所 谓 的 即席 字符 串 (here strings) 标记 方式 ， 这 是 取 自 rc 


; Shell ( 注 2) 的 UNIX 版 本 。 即 席 字 符 串 使 用 <<< 再 接 上 字符 串 。 字 符 串 即 成 为 相 


关联 命令 的 标准 输入 ， 辅 以 Shell i 


tr ... <<< "$myvarl $myvar2". | 


这 么 做 可 以 不 用 建立 额外 的 进程 ， 且 标记 的 方式 也 更 清 楚 。 


太 展 性 字 徐 第 标记 


bash 与 ksh93 都 支持 特殊 字符 串 标记 ， 可 了 解 一 般 类 C (或 类 echo) 的 转 义 符 。 
此 标记 包括 在 单 引 号 框 起 的 字符 串 , 前 置 二 个 $。 这 类 字符 申 的 行为 模式 有 点 像 一 
般 单 引号 框 起 来 的 字符 种 ， 不 过 Shell 会 解 译 字符 串 里 的 转 义 符 。 例 如 ， 


$ echo $'A\tB’ A、 ,定位 字符 、B 
A B 

$ echo $A\nB' A、 换 行 字 符 、B 
A 

B 


表 14-5 列 出 的 是 bash 与 ksh93 都 支持 的 算术 运算 符 。 
表 14-5; bash 与 ksh93 的 算术 运 运算 符 : 


运算 符 oo 3 本 





+ 十 一- 加 一 或 减 一 ， 可 前 置 或 置 于 结尾 ”由 左 至 右 
+ -1 单元 加 号 或 减 号 ， 罗 辑 与 bitwisge 。 由 右 至 左 
.否定 用 法 

二 。 取 寡 主 由 右 至 左 
于 乘 、 除 及 余数 由 左 至 右 
入 ” 加 与 减 由 左 至 右 
<< >> 向 左 与 向 右 位 移 一 个 位 由 左 至 右 
< <= > >= 比较 | 由 左 至 右 
= = 1!- 等 于 与 不 等 由 左 至 右 
& Bitwise 的 AND ”由 左 至 右 
^ Bitwise 的 Exclusive OR 由 左 至 右 
注 2: 见 http://www. star.le.ac.uk/~tjg/rc/, 
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表 14-5: bash 与 ksh93 的 算术 运算 符 〈 续 ) 


运算 符 RL 一 条 美 性 

| Bitwise 的 OR 由 左 至 右 
&& 逻辑 的 AND (捷径 式 ) 由 左 至 右 
11 : ti :逻辑 的 OR 《捷径 式 ) 四 由 左 至 右 
条 件 表示 起 由 右 至 左 
和 由 右 至 左 
5 | 连续 性 评估 由 左 至 右 


注 : ksh93m 与 更 新 版 本 使 用 。 在 Bash'3.1 安 前 的 版 本 里 ，** 为 堪 相 关联 的 。 它 是 自 3.1 版 后 才 
变 成 右 相 关联 处 理 。C 语言 里 没有 ** 运 算 符 。 ; 


回 括 绝 可 用 于 群 组 化 子 表示 式 。 其 算术 表示 式 的 语法 (类 CC) 支持 关联 式 运算 符 ， 
真 、0 为 伪 。 


例如 : $ ( (3 > 2)) 的 值 为 1; $S(( (3 > 2) 11 (4 <= 1) )) 也 是 值 为 1: 因为 两 个 
子 表示 式 里 至 少 有 一 个 为 真 即 可 。 


14.4 下 载 信息 


本 节 将 简略 说 明 到 哪里 去 寻找 bash 与 ksh93 的 源 代码 , 还 有 如 何以 源 代码 建 置 Shell。 
我 们 假定 你 的 系统 里 已 经 有 C 编译 器 ， 还 有 make 程序 。 


14.4. 1 bash 


bash 可 自 Free Software Foundation GNU Project 的 FTP 服 务 器 取得 。 此 书 编写 的 同时 ， 
最 新 的 现行 版 本 为 3.0。 你 可 以 使 用 wget.( 如 果 你 有 的 话 ) 直接 取得 发 布 的 tar 文件 : 


* $ wget ftp://ftp.gnu.org/gnu/bash/bash-3.0.tar.gz 
--17:49:21-- ftp://ftp.gnu.org/gnu/bash/bash-3.0.tar.gz 
=> “bash-3.0.tar.gz' 
» Yh E | 


另外 ， 你 也 可 以 使 用 传统 匿名 FTP 的 方式 取得 ， 


$ ftp ftp.gnu.org FTP 至 该 服务 器 
”Connected to ftp.gnu. org (199. 232. 全 
~ 220 -GNU FTP server ready. 

Name (ftp.gnu.org:tolstoy): anonymous 匿名 登录 

230 Login successful . 

230-Due to U.S. Export Regulations, all cryptographic software on this 
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230-site is subject to the following legal notice: 


Remote system type is UNIX. 
Using binary mode to transfer files. 


ftp> cd /gnu/baesh 切换 至 bash 目录 
250 Directory successfully hanges: 1 

ftp> blnary 区 . ”确认 为 二 进 制 模式 
200 Switching to Binary mode. 

ftp> haeh  : i 显示 # 标 记 

Hash mark printing on {1024 bytes/hasn nark) . 


ftp> get bash-3.0.tar.gz 取出 文件 
local: bash-3.0.tar.gz remote: bash-3.0.tar.gz i : 

227 Entering Passive Mode (199,232,41,7,149,247) 

150 Opening BINARY mode data connection for bash-3.0.tar. gz (2418293 
bytes). 

桂林 补 插 林 衬 折 村 入 村 村 拉 扩 持 扩 入 灾 持 拉 扩 失 持 拉 持 社 失 村 拉 村 社 失 村 拉 村 桩 社 折 打折 拉 拓 打样 析 失 科 扩 持 桂 扩 扩 扩 社 拉 持 和 各社 持 扩 村 持 拉 扩 社 持 社 挂失 衬 折 折 
六 提 六 社 失守 提 六 社 村 社 扩 社 捍 社 持 守 社 持 捍 社 大社 社 捍 社 提 社 持 社 持 社 社 持 社 提 社 村 福村 扩 社 打 社 持 社 提 社 村 社 扩 持 社 扩 折 持 社 社 村 社 扩 衬 打 社 持 社 扩 社 打 社 持 社 提 扩 提 
226 File send OK. 

2418293 bytes received in 35.9 secs (66 Kbytes/sec) 

ftp> quit . 二 大 功 告 万 

221 Goodbye. E 


nd 你 应 该 上 也 要 了 回 任何 的 修补 文件 (patch)。 以 3.0 版 的 bash 
必须 自 不 同 的 地 点 取得 。 你 可 

以 在 ftp:/ftp.cwru.edu/pub/bash/bash-3.0-patches/ 下 找到 , 取出 所 有 修补 文件 后 , 将 之 
置 于 临时 目录 ， 方式 如 下 : 


$ mkair /tmp/p : 人 
$ cd /tmp/p 切换 过 去 ， 
$ for 1 lna 01 02.03 04 05 06 07 08 09 10 11 12 13 14:15.16 : 
> do wget ftp://ftp.cwru.edu/pub/bash/bash-3,0-patches/bash30-0$1 
> done 取出 所 有 修补 文件 

省 略 许多 的 输出 .….. 


写 这 本 书 时 , 共有 16 个 修补 文件 ， 有 可 能 还 有 更 多 更 新 的 修补 文件 ,得 视 basp 版 本 而 


至 此 ， 你 已 准备 好 解 开发 布 文件 与 套用 修补 文件 了 。 Es 解 开源 代码 : . 


$ gzip -a < bash-3.0.tar.gz | tar -xpvzf - 解压 缩 与 解 开打 包 文件 
bash-3.0/ 
bash-3.0/CWRU/ 
bash-3.0/CWwRU/misc/ 
bash-3.0/CWRU/misc/open-files.c 
bash-3.0/CWRU/misc/sigs.c 
省 略 许 多 输出 


然后 ， 套 用 修补 文件 : 





= 
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$ cd bash-3.0 切换 至 原始 码 的 目录 
$ for 1 in /tmp/p/* 套用 所 有 修补 文件 
> do patch -p0 --verbose --backup < $1 

> done 

... 省略 许多 的 输出 . 

$ find . -name '*.rej’! 检查 是 否 失败 

$ find . -name '*.orig’' -print | xargs rm 清空 


修补 文件 的 引用 一 如 上 述 , 是 使 用 GNU 版 本 的 patch。 请 注意 有 些 商 用 UNIX 系统 提供 
的 是 较 旧 的 版 本 。 在 套用 修补 文件 之 后 , 我 们 会 寻找 .rej (reject) 文件 , 看 看 是 否 有 
修补 失败 的 记录 ,在 这 里 没有 , 所 以 一 切 运作 正常 。 接 下 来 ,我 们 会 删除 .orig(original) 
文件 ， 再 以 下 面 的 操作 建 置 bash: 


$ ./configure && make && make check 配置 、 建 晋 、 测 试 
checking build system type... i686-pc-linux-gnu 
checking host system type... i686-pc-linux-gnu 

省 略 许多 输出 


如 果 所 有 的 检测 通过 (也 应 该 是 如 此 ) ， 那 就 表示 大 功 告 成 了 ! 你 可 以 使 用 make 
install 安装 最 新 建 置 完 成 的 bash 可 执行 文件 (可 能 得 切换 为 root 的 身份 才能 做 这 
件 事 )。 

14.4.2 ksh93 

ksh93 的 源 代码 可 至 AT&T Research 网 站 下 载 ，URL 为 http://www.research.att.com/ 
sw/download。ksh93 的 建 置 是 相当 直觉 的 ,但 处 理 方式 较 bash 多 了 许多 手动 操作 的 部 
分 。 我 们 所 呈现 的 是 2004 年 2 月 建 置 ksh93p 的 步骤 ， 其 流程 与 现行 版 本 相似 。 在 此 我 


们 选择 仅 建 置 Korn Shell， 不 过 你 应 该 比较 希望 下 载 与 建 置 整个 “AST Open” 包 ， 因 
为 它 提供 了 很 完整 的 工具 组 。 


1. 自 网 站 下 载 包 INIT.2004-02-29.tgz 与 ast-ksh.2004-02-29.tgz。 将 之 置 于 
某 个 空 目 录 下 ， 以 供 将 来 建 置 软件 所 用 。 


2. 建立 lip/package/tgz 目录 ， 并 将 这 两 个 文件 移 过 去 : 


$ mkdir -p lib/package/tgz 
$ mv *.tgz lib/package/tgz 


3. ”手动 解 开 INIT 包 : 


$ gzip -d < lib/package/tgz/INIT.2004-02-29.tgz | tar -xvf - 
省 略 许多 输出 .….. 


4. ” 借 由 读 取 哪个 包 可 用 ， 使 用 AT&T 的 工具 开始 建 置 流程 ; 


$ bin/package read 
package: update /home/tolstoy/ksh93/bin/execrate 


省 略 许多 输出 
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5， 再 使 用 AT&T 工具 ， 开 始 编译 : 


$ bin/package make 
package: initialize the /home/tolstoy/ksh93/arch/linux.i386 view 


省 略 许多 输出 ... 
此 步骤 会 花费 一 些 时 间 ， 视 你 系统 与 编译 器 的 速度 而 定 。 
6. ”新 建 置 完成 的 ksh93 二 进 制 文件 , 位 于 arch/ARCH/bin/ksh 下 , 其 中 , ARCH 表 
示 的 是 你 建 置 ksh93 那 台 机 器 的 架构 。 以 x86 GNU/Linux 系统 而 言 ， 即 为 


linux.i386。 像 这 样 : 


$ arch/linux.i386/bin/ksh 执行 新 建 置 的 ksh93 
$ echo ${.sh.version} 显示 版 本 
Version M 1993-12-28 p 


7. 或许 你 会 想 要 将 新 建 置 完成 的 Korn Shell 移 至 你 路 径 内 的 目录 里 ， SU 
人 bin 目录 : 


$ cp arch/linux.i386/bin/ksh $HOME/bin/ksh93 


好 了 ， 可 以 开始 使 用 了 ! 


14.5 其 他 扩展 的 Bourne 式 Shell 


另外 还 有 两 个 也 是 相当 受 欢迎 的 Shell: 


Public Domain Korn Shell 
许多 开放 源码 的 类 UNIX 系统 ， 像 是 GNU/Linux， 都 随 附 Public Domain Korn 
Shell，pdksh。pdksh 源 代码 可 自 http://web.cs.mun. easintchael/pdkshl 取得 ， 其 
附 有 命令 供用 户 建 置 与 安装 在 各 种 UNIX 平台 上 。 


padksh 原 由 Eric Gisin 所 编写 , 它 将 pdksih 的 基础 建 置 在 Charles Forsyth 的 Version 
7 Bourne Shell 之 公众 领域 版 本 上 ;。 “有 许多 部 分 兼 守 于 1988 Korn Shell 与 POSIX， 
另 带 有 部 分 自 有 的 扩展 。 
Z-Shell We 
zsh 是 一 套 强 而 有 力 的 交互 式 Shell 与 脚本 语言 ， 能 做 到 ksh、bash 与 fcsh 所 能 
完成 的 很 多 任务 ， 也 有 许多 特有 的 功能 。zsh 拥有 ksh88 大 部 分 的 功能 但 ksh93 
的 倒是 极 少 。 它 完全 可 以 自由 取得 ,并 应 被 编译 与 执行 于 任何 现代 的 UNIX 版 本 上 。 
置 于 其 他 操作 系统 上 也 可 行 ， 其 官方 网 站 为 http:/www.zsh. org/。 


这 些 Shell 在 Learning the Korn Shell (O’Reilly) 里 都 有 更 详尽 的 叙述 ， 书 籍 信息 详 见 
参考 书目 。 
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14.6 Shell 版 本 


这 些 对 于 扩展 性 Shell 的 探讨 提醒 我 们 , 偶而 查 查 各 种 不 同 Shell 的 版 本 信 息 会 是 很 方便 
的 。 查 询 方法 如 下 : 

$ bash --version bash 
.GNU bash, version 3.00.16(1)-release {i686-pc-linux-gnu) 


$ ksh --version 仅 最 近 的 ksh93 适用 
version sh (AT&T Labs Research) 1993-12-28 p 
$ ksh > 旧版 的 ksh 
$V 键入 “VvV 
. $ Version 11/16/88f > A ksh 显示 其 版 本 
$ echo :echo $KSH VERSION' | pdaksh paksh 


@{#)PD KSH v5.2.14 99/07/13.2 


$ echo 'echo $2ZSH VERSION' | zsh zsh 
4.1.1 


此 处 并 未 提供 取得 /bin/sh 版 本 编号 的 方式 。 这 没什么 好 惊讶 的 ， 大 部 分 商用 UNIX 系 
统 上 真正 的 Bourne Shell， 都 系 出 System V Release 3 (1989 ) 或 Release 4 (1989) 
Bourne Shell， 之 后 改变 很 少 ， 甚至 可 以 说 是 没有 任何 变动 。 厂商 希望 采用 某 个 Korn 
Shell 版本， 以 提供 POSIX 兼容 的 Shell。 


14.7 Shell 初始 化 : 与 终 


为 支持 用 户 客户 化 ， Shell 会 在 启动 、 笑 目 时 ， 读 取 某 些 特定 文件 。 每 个 Shell 都 有 不 同 
的 惯例 模式 ， 所 以 我 们 以 独立 的 小 节 分 别 讨论 它们 。 


如 时 你 编写 的 Shell 脚本 希望 能 被 其 他 Shell 使 用 ， 你 就 不 应 该 依赖 启动 时 的 定制 功能 。 
我 们 在 本 书 所 开发 的 所 有 Shell 脚本 都 会 设置 它们 自己 的 环境 (例如 必 PATH 的 值 ) ， 让 
任何 人 都 能 执行 它们 。 


Shell 的 行 5 为 模式 端 视 它 是 否 为 登录 Shell (login Shell) 而 定 。 当 你 坐 在 终端 前 ， 在 计 
算 机 的 提示 符号 下 输入 你 的 username 与 密码 时 ， 便 是 正在 取得 登录 Shell。 相同 地 ， 当 
你 使 用 ssh hostname 时 ， 也 是 取得 一 个 登录 Shell。 然而 ， 如 果 你 指定 名 称 执行 Shell， 
或 直接 在 脚本 首 行 #! 下 指定 的 命令 解释 器 执行 , 或 建立 一 个 新 的 工作 站 终端 窗口 ， 或 
在 远 端 Shel 中 执行 命令 时 ,例如 ssh, hostaame commana, 则 该 Shell 都 不 是 登录 Shell。 


Shell 是 检查 $0 的 值 决定 它 是 否 为 登录 Shell， 如 果 该 值 以 连 字号 起 始 ， 即 为 登录 Shell， 
否则 就 不 是 。 你 可 以 使 用 下 列 方式 ， 得 知 你 现在 是 否 在 登录 Shell 下: 
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$ echo $0 显示 : Shel1 名 称 | 

-ksh 是 的 ， 这 是 登录 Shel1 
连 字 号 并 不 是 暗示 有 个 文件 名 叫 /bin/-ksh。 人 当 
它 执行 exec () 系统 调用 以 启动 Shell 时 使 用 。 


如 果 你 日 常 处 理 都 只 有 一 种 Shell， 那么 后 面 几 个 小 季 所 叙述 的 初 娩 : 与 终 结 文件 对 你 来 说 
就 不 是 问题 : 你 只 要 设置 好 一 次 ,定制 为 你 要 的 模式 , 确认 运作 无 误 , 就 可 以 很 久 不 去 
动 它 。 但 如 果 你 得 处 理 数 种 Shell, 可 能 就 必须 更 审慎 考虑 你 的 定制 方式 , 避免 重复 与 维 
护 的 头疼 问题 。. (点 号 ) 与 test 命令 都 是 不 可 或 缺 的 好 工具 , 你 可 以 将 它们 用 在 定制 
的 脚本 里 ; 读 取 可 让 Bourne 家 族 Shell 接 受 的 一 组 小 心 写 入 之 文件 , 也 可 以 将 它们 用 于 
所 有 你 必须 访问 的 主机 上 。 和 让 
所 有 用 户 都 可 使 用 。 


14.7.1 Bourne Shell (sh) 启动 . 
当 它 为 登录 Shell 时 ，Bourne Shell 一 一 sh 相当 于 : 


test -r /etc/profile && . /etc/profile . 尝试 读 取 /etc/profile 
test -r SHOME/ .profile && . $HOME/.profile 堂 试 读 取 SHOME/ ， profile ， 


会 读 取 两 个 与 当前 Shell 相关 的 启动 文件 ， 但 不 强求 它们 一 定 要 有 一 个 存在 。 需 特 
根 目 录 文 件 为 一 个 点 号 文件 ， 而 在 /etc 下 系统 商 的 则 和 否 。 


系统 Shell 启动 文件 的 建 置 ， 是 由 本 地 端 管理 ， 着 起 来 像 这样， 


$ cat /etc/profile 显示 系统 Shell 启动 文件 
PATH=/usr/local/bin: $PATH ”将 /usr/local/bin 加 入 至 系统 路 径 起 始 处 
export PATH 导出 让 子 进程 知道 
umask 022 删除 群 组 与 其 他 人 的 写 人 权限 
传统 的 $SHOME/ .profile 文 件 可 以 修改 本 地 端 系 统 的 默认 登录 环境 , 使 用 的 命令 如 下 : 

,，$ cat $HOME/, profile | 显示 个 人 的 . She11 启动 文件 
PATH=$PATH: $HOME/bin - 将 个 人 bin A 
exiport PATH : 导出 让 子 进程 知道 ， 
alias rm='rm -ii i 
umask 077 | 删除 群 组 与 其 他 人 的 所 有 访问 


子 Shell 接连 建立 后 会 继承 父 Shell 的 环境 字符 串 ， 包 括 PATH。 它 也 继承 当前 工作 目录 
与 当前 文件 权限 掩 码 , 两 者 都 记录 于 内 核 里 进程 专 有 的 数据 中 。 它 不 会 继承 其 他 
的 定制 ， 像 alias 所 设置 的 命令 缩写 用 法 或 是 未 导出 的 变量 。 | 


当 Shel 不 是 一 个 登录 Shell 时 ，Bourne Shell 并 未 提供 自动 读 取 启动 文件 功能 ， 所 以 别 
名 的 使 用 会 受 限 。 由 于 远 端 命令 执行 也 不 会 建立 登录 Shell, 所 以 你 也 不 能 指望 PATH 会 
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设置 为 你 惯用 的 值 : 它 可 能 就 只 是 /bin: /usr/bin 这 么 简单 的 设置 ,我 们 在 8.2 节 里 的 
build-all 脚本 里 已 处 理 过 这 种 状况 。 


在 离开 时 ， Bourne Shell 不 会 读 取 标准 的 终结 文件 ， 但 你 可 以 设置 一 个 捕捉 ， 让 它 这 么 
做 (我 们 在 13.3.2 已 说 明 捕 提 的 细节 了 ) 。 例 如 , 如 果 你 将 这 个 语句 放 在 $SHOME/ .profile 
trap '. $HOME/. logout ， EXIT 


然后 $HOME/. logout 脚 本 便 能 执行 所 有 你 要 的 清除 操作 ， 像 是 以 clear 命 令 清扫 屏幕 。 
然而 ,因为 只 能 为 任何 给 定 的 一 个 信号 指定 一 个 捕捉 , 所 以 如 果 是 它 在 稍 后 的 通信 期 里 
被 覆盖 时 ， 便 会 失去 这 里 指定 的 捕捉 : 没有 方法 可 保证 终结 的 脚本 一 定 会 被 执行 。 对 于 
非 登 录 (nonlogin) Shell, 每 个 需要 离开 处 理 的 脚本 或 通信 期 , 都 必须 明确 地 设置 EXIT 
捕捉 ， 但 一 样 不 保证 在 离开 时 必定 会 生效 。 


这 些 限 制 、 缺 乏 命令 历史 (history) 的 支持 ( 注 3)， 以 及 一 些 较 旧 的 实例 、 工 作 控制 ， 
都 让 Bourne Shell 不 为 多 数 交 互 模式 下 的 用 户 所 青睐 。 在 大 部 分 商用 UNIX 系统 上 , 倾 
向 于 只 让 root 或 其 他 系统 管理 者 身份 的 账号 , 在 短暂 的 通信 期 下 交互 式 地 使 用 它 。 尽 
管 如 此 ，Bourne Shell 还 是 可 移植 性 Shell 脚本 期 待 的 选择 。 


14.7.2 Korn Shell 启动 
当 Korn Shell - ksh 启动 为 登录 Shell 时 ， 它 会 像 Bourne Shell 一样 读 取 /etc/profile 
与 SHOME/ .profile 一 一 如 果 这 两 个 文件 存在 且 可 读 取 的 话 。 
当 ksh93 启动 为 交互 式 Shell (登录 或 非 登 录 )， 它 会 作 这 样 的 操作 : 
test -n "S$ENV"” && eval .. “$ENV" 试 着 读 取 $SENV 


ksh88 无 条 件 处 理 'SENV， 针 对 所 有 的 Shell。 


eval 命令 在 7.8 节 里 已 说 明 。 现在 , 我 们 已 经 知道 它 先 评估 它 的 参数 ,所 以 任何 在 那里 
的 变量 都 会 被 展开 ， 然 后 以 命令 的 方式 执行 结果 字符 串 。 效 果 便 是 在 当前 Shell 下 ， 读 
取 并 执行 ENV 里 指名 的 文件 。PATH 目录 并 不 会 用 来 查找 这 里 的 文件 , 所 以 ENV 应 标明 
一 个 绝对 路 径 。 


ENV 的 功能 解决 了 Bourne Shell 为 子 Shell 通信 期 设置 私有 别名 的 问题 。 然而 ， 它 并 没 
解决 非 登 录 远 端 通信 期 的 定制 问题 ， 它们 的 Shell 永远 不 会 读 取 任 何 的 初始 化 文件 。 


注 3: ”很 多 系统 上 的 /bin/sh 仅 为 bash 的 连接 , 在 这 种 情况 下 , 命令 历史 是 可 以 使 用 的 。 不 
过 ;原始 的 Unix Bourne Shell 并 不 支持 命令 历史 功能 。 
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韭 交 互 式 的 ksh93 就 像 Bourne Shell 一 样 ， 不 会 读 取 任 何 的 启动 脚本 ， 也 不 会 在 离开 
之 前 读 取 任 何 的 终结 脚本 ， 除 非 你 自己 下 达 tzap 命令 (正如 之 前 所 言 , 一 个 非 交 互 式 
ksh88 会 在 启动 时 读 取 及 执行 SENV 文件 ) 。 


14.7.3 Bourne-Again Shell 启动 与 终结 


虽然 GNU bash 时 常 是 以 自己 的 方式 被 作为 登录 Shell, 但 当 它 以 sh 的 名 称 引 用 时 ,也 
可 以 模拟 为 Bourne Shell。 而 它 接 下 来 的 启动 行为 就 如 14.7:1 节 里 所 描述 一 般 ， 在 此 种 
状况 下 本 节 大 部 分 的 内 容 都 不 能 套用 。 在 GNU/Linux 系统 下 ， /bin/ sh 必 为 /bin/ 
bash 的 符号 性 连接 。 





警告 ，bash 的 模拟 Bourne Shell 并 不 完美 ， 因 为 当 bash 被 引用 为 sh 时 ， 会 隐藏 其 诸多 扩展 功 
能 的 一 部 分 。 我 们 偶然 发 现 软 件 包 里 的 Shell 脚 本 是 开发 在 由 /biny sh 执行 的 GNU/Linux 
环境 下 , 但 并 未 在 真正 的 Bourne Shell 环境 下 测试 ， 后 者 环境 很 可 能 因为 用 的 是 扩展 性 功 
能 而 导致 它们 失败 。 





当 bash 为 登录 Shell 时 ， 启 动 时 它 的 操作 相当 于 : 


test -r /etc/profile && . /etc/profile 试 着 读 取 /etc/profile 
if test -r SHOME/.bash profile ; then 尝试 三 种 可 能 性 
. S$SHOME/ .bash profile 
elif test -r S$SHOME/ .bash_login ; then 
. SHOME/.bash_login 
elif test -r $HOME/.profile ; then 
. $HOME/ .profile 
ET 
系统 面 的 文件 则 同 于 Bourne Shell 的 , 只 不 过 在 $SHOME 内 的 查找 顺序 允许 你 将 bash 特 
定 的 初始 文件 放 进 这 两 个 文件 其 中 之 一 。 否则, bash 会 回去 读 取 你 个 人 的 Bourne-Shell 


启动 文件 。 
离开 时 ， 一 个 bash 登录 Shell 会 做 : 


test -r S$HOME/.bash logout && . $HOME/.bash_logout 试 着 读 取 终结 脚本 


不 同 于 Bourne Shell 的 是 ， bash 在 交互 式 非 登录 Shell 下 启动 时 会 读 取 初 始 文件 ， 步骤 
相当 于 ， 


test -r SHOME/ .bashrc && .5SHOME/ .baskhre BE 试 着 读 取 $HOME/ .bashrc 


此 状况 下 ， 就 不 会 读 取 登 录 Shell 的 启动 文件 。 
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当 bash 使 用 在 非 交 互 模式 时 ; 不 会 读 取 . i 它 改 为 
读 取 定义 于 BASH_ENV 变量 中 的 文件 ， 像 这 样 ， 


test -r "$BASH_ENV" && eval . "$BASH_ENV" i 试 着 读 取 $SBASH_ENV 
以 ksh 来 说 ，PATH 目 录 并 不 是 用 来 查找 这 个 文件 的 。 


请 留意 它们 的 差异 ， Korn Shell 的 BNV 变量 仅 用 于 非 登录 的 交 互 式 Shell, 而 bash 的 
BASH_ENV 则 仅 用 填 非 交互 式 Shell, 


清 启 动 文件 处 理 的 顺序 ， 我们 使 用 echio 命 令 进行 测试 。 登录 通信 期 看 起 来 就 像 这 


: 
$ login 起 始 一 个 新 的 登录 session 
login: bones < 多 : 
Password: . 抑制 密码 输出 


DEBUG: This is /etc/profile 

DEBUG: This is /home/bones/ .bash_profile 

$ exit 终结 通信 期 
logout 

DEBUG: This is /home/bones/ .bash_logout 


交互 式 通 信 期 仅 引 用 一 个 文件 : 
$ bash eg 开始 交互 式 通信 期 
DEBUG: This is /home/bones/.bashrc 
$ exit 终结 通信 期 


exit 
| 非 交 互 式 通信 期 通常 不 会 引用 任何 文件 : 


$ echo pwd | bash 于 bash 之 下 执行 命令 
/home/bones 


然而 ， 如 果 BASH_ENV 值 指向 一 个 起 始 文件 时 ， 便 会 这 么 做 ， 


$ echo pwd | BASH_ENV=$HOME/ .bashenv bash 在 bash 下 执行 命令 
DEBUG: This is /home/bones/ .bashenv 
/home/bones 


14.7.4 Z- z-Shell 起 始 与 终 终结 


Z-Shell zsh 可 仿 为 Bourne Shell 或 是 Korn Shell。 在 sh 或 ksh 名 称 下 被 引用 ， 
或 是 以 字符 s 或 开头 的 任何 名 称 被 引用 时 ， 可 选择 性 地 前 置 单 一 上 (restricted， 限制 
性 ) ， 它 就 会 拥有 与 那些 Shell 相同 的 启动 行为 ， 且 本 市 的 其 他 部 分 不 能 套用 (模仿 ksh 
时 ， 它 会 遵循 总 是 处 理 $ENV 文件 的 ksh88 行为 模式 ) 。 
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Z-Shell 拥 有 最 复杂 , 也 最 弹性 的 定制 处 理 。 每 次 Z-Shell 启 动 , 无 论 它 是 否 为 登录 Shell、 
交互 式 Shell， 或 是 非 交互 式 Shell， 都 会 试 着 读 取 两 个 初始 文件 ， 像 这 样 : 


test -r /etc/zshenv && . /etc/zshenv 读 取 系统 面 的 脚本 
if test -n "$2ZDOTDIR" && test -r $2ZDOTDIR/ .zshenv ; then 

. $ZDOTDIR/ .zshenv 读 取 此 文件 
elif test -r $HOME/.zshenv ; then 

. $HOME/ .zshenv 或 此 文件 
£1 


ZDOTDIR 变 量 是 防止 zsh 自 动 读 取 用 户 根 目录 下 的 启动 文件 的 系统 管理 手段 , 相对 地 ， 
它 会 强制 读 取 在 管理 控制 下 位 于 其 他 地 方 的 文件 。 如 果 需 使 用 此 变量 ， 则 它 会 被 设置 
在 /etc/zshenv 里 ， 所 以 你 可 以 到 那儿 看 看 你 的 系统 处 理 方式 。 


假设 ZzDOTDIR 未 设置 , 最 好 的 位 置 便 是 将 它 置 于 个 人 定制 的 地 方 , 其 中 你 希望 在 每 一 个 
Z-Shell 通信 期 中 都 能 生效 。$HOME/ .zshenv 是 可 以 影响 所 有 Z-Shell 通 信和 期 的 文件 。 


如 为 登录 Shell， 接 下 来 它 会 执行 相当 于 下 列 的 命令 ， 读 取 两 个 启动 profile: 


test -r /etc/zprofile && . /etc/zprofile 读 取 系统 面 的 脚本 
if test -n "$ZDOTDIR" && test -r 5$2DOTDIR/ .zprofile ; then 
. $ZDOTDIR/ .zprofile 读 取 此 文件 
elif test -r $HOME/.zprofile ; then ， ， 
。SHOME/ .zprofile 或 此 文件 
£i 
如 果 为 登录 Shell 或 交互 式 Shell， 接 下 来 会 试图 读 取 两 个 启动 文件 ， 像 这 样 : 
test -r /etc/zshrc && . /etc/zshrc ” 读 取 系统 面 脚本 
if test -n "$2ZDOTDIR" && test -r $2ZDOTDIR/ .zshrc ; then 
. $ZDOTDIR/ .zshrc : 读 取 此 文件 
elif test ~-r $HOME/.zshrc ; then 
. $HOME/ .zshrc 或 此 文件 
下 
最 后 ， 如 果 为 登录 Shel1， 它 还 会 试 着 读 取 两 个 登录 脚本 ， 像 这 样 
test -r /etc/zlogin && . /etc/zlogin 读 取 系统 面 脚本 
if test -n "%$2DOTDIR" && test -r 5$ZDOTDIR/ .zlogin ; then 
. $ZDOTDIR/ .zlogin 读 取 此 文件 
elif test -r S$HOME/.zlogin ; then ; 
. $HOME/ .zlogin 或 此 文件 
fi 


zsh 离开 时 ， 如 果 为 登录 Shell， 它 不 会 因为 由 exec 执 行 的 其 他 进程 而 被 终结 , 而 是 借 
由 读 取 两 个 终结 脚本 而 结束 。 依 序 为 一 个 用 户 的 ， 一 个 系统 的 : 


if test -n "$ZDOTDIR" && test -r $ZDOTDIR/.zlogout ; then 读 取 此 文件 
. $ZDOTDIR/ .Zlogout 
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elif test -r 5SHOME/ .zlogout ; then 或 此 文件 
. SHOME/ .zlogout | 
Ef : 
test -r /etc/zlogout && . /etc/zlogout 读 取 系统 面 脚本 


Z-Shell 初 始 与 终结 的 处 理 程序 相当 复杂 。 为 了 更 了 解 它 做 了 什么 , 我 们 将 每 个 文件 搭配 
echo 命令 ， 且 将 ZDoTDIR 停 留 在 未 设置 状态 。 这 么 一 来 ， 只 有 在 /etc 与 SHOME 下 的 
文件 才 会 被 寻找 。 登 录 通 信 期 看 起 来 就 会 像 这 样 : 


$ login l 起 始 新 的 登录 通信 期 
login: zabriski - 
Password: 抑制 密码 显示 


DEBUG: This is /etc/zshenv 

DEBUG: This is /home/zabriski/.zshenv 
DEBUG: This is /etc/zprofile 

DEBUG: This is /home/zabriski/.z2profile 
DEBUG: This is /etc/zshrc 

DEBUG: This is /home/zabriski/.zshrc 
DEBUG: This is /etc/zlogin 

DEBUG: This is /home/zabriski/.zlogin 

$ exit 终结 通信 期 
DEBUG: This is /home/zabriski/.zlogout 
DEBUG: This is /etc/zlogout 


交互 式 通信 期 引用 较 少 的 文件 : 


$ zsh 开始 一 个 新 的 交互 式 通信 期 
DEBUG: This is /etc/zshenv 
DEBUG: This is /home/zabriski/.zshenv 
DEBUG: This is /etc/zshrc 
DEBUG: This is /home/zabriski/.zshrc 
$ exit 终结 通信 期 
静默 ， 未 读 取 任 何 终结 文件 


非 交互 式 通信 期 仅 使 用 两 个 文件 ， 


$ echo pwd | zeh 在 zsh 下 执行 命令 
DEBUG: This is /etc/zshenv Se 

DEBUG: This is /home/zabriski/.zshenv 

/home/zabriski 


14.8 ”小结 


POSIX 标准 提升 了 可 移植 式 Shell 脚 本 的 可 能 性 。 如 果 你 在 该 定义 下 做 事 ， 那么 要 完成 
一 个 可 移植 式 脚本 是 有 机 会 成 功 的 。 不 过 真实 世界 往往 更 复杂 。 虽然 bash 与 ksh93 都 
提供 比 POSIX 还 多 很 多 的 扩展 ， 但 它们 也 并 非 百 分 之 百 彼 此 兼容 。 我 们 列 出 了 一 长 串 

“ 迷 思 (Gotchas)” 列 表 , 将 它们 挑 出 来 ,甚至 还 包括 了 像 set 选项 或 是 存储 Shell 的 完 
整 状 态 等 领域 ， 值 得 大 家 注意 。 
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shopt 命令 可 用 以 控制 basph 的 行为 。 我 们 特别 建议 你 : 在 交互 模式 下 启用 extglob 选 
项 。 


bash 与 ksh93 共 享 许多 共通 的 扩展 一 一 在 Shell 程 序 化 时 相当 好 用 ; select 循环 、 扩 
展 性 测试 工具 [1 ...]]、 扩 展 性 样式 比 对 . 括 弧 展开 、 进 程 替换 及 索引 式 数 组。 我 们 也 
提 到 许多 其 他 小 型 ， 但 很 有 用 的 扩展 。 算 术 for 循环 与 ((...)) 算 术 命 令 可 能 是 这 些 
里 面 最 有 名 的 了 。 


bash 与 ksh93 的 源 代码 可 自 Internet 下 载 取得 , 我 们 还 介绍 了 这 两 个 Shell 的 建 置 方式 。 
除 此 之 外 ， 还 有 两 个 广 受 欢迎 的 扩展 性 Bourne 式 Shell: pdksh 与 zsh， 我 们 也 做 了 简 
短 的 介绍 。 


我 们 让 你 知道 如 何 确认 你 所 执行 的 Shell 版 本 。 这 在 你 需要 知道 正在 使 用 的 程序 是 哪个 
版 本 时 会 用 得 到 。 


最 后 ,不 同 的 Bourne Shell 语 言 实例 , 在 起 始 与 终结 时 都 有 不 同 的 定制 功能 与 文件 .Shell 
脚本 倾向 于 一 般 的 使 用 , 不 要 依赖 任何 个 别 用 户 所 设置 的 功能 或 变量 , 反而 应 该 由 他 们 
自行 处 理 所 有 必需 的 初始 化 操作 。 
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安全 的 Shell 脚本 :起 点 


UNIX 的 安全 性 一 向 是 恶名 在 外 。 几 乎 从 每 个 角度 看 ，UNIX 系统 都 有 或 多 或 少 的 安全 
性 争议 ， 不 过 这 些 大 部 分 都 是 系统 管理 者 该 担心 的 。 


本 章 , 我 们 会 先 列 出 一 长 串 “ 诀 穿 ， 提 醒 你 编写 Shell 脚本 应 该 注意 的 地 方 ， 以 避 开 安 
全 性 问题 。 再 者 ， 我 们 会 介绍 限制 性 Shell (restricted Shell) ， 这 是 对 用 户 环境 加 以 限 
制 的 Shell。 接 下 来 ， 我 们 还 会 提 到 特洛伊 木马 (Trojan horse)， 并 说 明 为 什么 应 该 要 
避 开 它 。 最 后 ,将 探讨 setuid 的 Shell 脚 本 ,包括 Korn Shell 的 特权 模式 (privileged mode ) 。 


注意 : 本 书 主题 并 非 探讨 UNIX 系统 安全 性 。 本 章 进 行 的 讨论 也 只 是 冰山 一 角 ， 而 UNIX 系统 的 
安全 性 除了 Shell 的 设置 之 外 ， 还 有 无 数 的 层面 必须 关切 。 


如 果 你 想 了 解 更 多 UNIX 的 安全 性 问题 , 我 们 建议 你 看 《Internet Security》(O"Reilly) 这 
本 书 ( 见 参考 书目 )。 


15.1 安全 性 Shell 脚本 提示 


下 面 的 提示 ， 有 助 于 你 编写 一 个 更 安全 的 Shell 脚 本， 感谢 Purdue University 的 Center 


for Education and Research in Information Assurance and Security 学 者 Professor Eugene 


(Gene) Spafford ( 注 1) 所 提供 的 信息 : 


乡 将 当前 目录 (点 号 ) 置 于 PATH 下 
可 执行 程序 应 该 只 能 放 在 标准 的 系统 目录 下 ， 将 当前 目录 (点 号 ) 放 在 PATH 里 ， 
无 疑 是 打开 特洛伊 木马 (Trojan Horse) 的 大 门 ， 详 见 15.3 节 。 


注 1: 见 htip://www.cerias.purdue.edu/, 
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为 bin 目录 谈 置 保护 
确认 $PATH 下 的 每 一 个 目录 都 只 有 它 的 拥有 者 可 以 写 入 ,其余 任何 人 都 不 能 。 同样 
的 道理 也 应 应 用 于 bin 目录 里 的 所 有 程序 。 


写 程序 前 ， 先 息 消 楚 
花 点 时 间 想 想 , 你 想 要 做 的 是 什么 、 该 如 何 实行 。 不 要 一 开始 就 在 文字 编辑 器 上 直 
接 写 ， 而 且 , :在 它 真 的 开始 运作 前 ， 要 不 断 地 设法 测试 。 错 误 与 失败 的 优雅 处 理 ， 
也 应 该 设计 在 程序 里 。 


应 对 所 有 答 人 参数 检查 其 有 豆 性 
如 果 你 期 待 的 是 数字 ， 那 就 验证 你 拿 到 的 是 数字 。 检 查 该 数字 是 否 在 正确 的 范围 
内 。 同 样 的 检查 也 应 该 出 现在 其 他 类 型 的 数据 上 ，Shell 的 模式 匹配 工具 可 以 将 这 
个 工作 处 理 得 很 好 。 


杂记 有 可 返回 鳞 误 的 命令 ， 检查 镑 误 处 理 代码 
不 在 你 预期 内 的 失败 情况 ， 很 可 能 是 有 问题 的 强迫 失败 ， 导 致 脚本 出 现 不 当 的 行 
为 。 例如 ， 如 果 参 数 为 NFS 加 载 磁盘 或 面向 字符 的 设备 文件 时 ， 即便 是 以 xoot 的 
身份 执行 ， 也 可 能 导致 有 些 命令 失败 。 


不 要 信任 传 进 夹 的 环境 变量 
”如 果 它 们 被 接 下 来 的 命令 (例如 T2、PATH、IFS 等 ) 使 用 时 ， 请 检查 并 重 设 为 已 
知 的 值 。ksh93 会 在 启动 时 自动 重 设 IFS 为 它 的 默认 值 , 无论 当时 环境 为 何 ,但 
其 他 许多 Shell 就 不 会 这 么 做 了 。 无 论 在 什么 情况 下 ,最 好 的 方式 就 是 明确 地 设置 
PAT 内包 合 如 夺 Din 昌吉 并 设置 IFS 为 “空格 定位 字符 一 换行 字符 ”(space- 


tab- newline)。 

从 已 知 的 吉方 开 始 二 
在 脚本 开始 时 ,确切 ca 到 已 知 目录 , 这 么 一 来 , 接 下 来 的 任何 相对 路 径 名 称 才能 
指 到 已 知 位 置 。 请 确认 ca 操作 成 功 : 


cd app-dir || exit 1 
在 命令 上 使 用 完整 路 径 ee | 
这 么 做 你 才能 知道 自己 使 用 的 是 哪个 版 本 ， 无 须 理会 $PATH 设置 。 
使 用 syslog(8) 保 留 征 计 和 女足 


记录 引用 的 日 期 与 时 间 、username 等 ， 参 参见 logger(1) 的 使 用 手册 。 如 果 你 没有 
logger， 可 建立 一 个 函数 保留 日 志文 件 : 


‘logger (}{ 
: Printf *%s\n" "S$*" >»>> ‘/var/adm/logsysfile.: 
} 
1ogger "Run by user " S$(id -un) “($USER) at " ¢(/bin/date) 
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当 使 用 该 答 人 有 时， 一 定 将 用 户 笨 人 引用 起 来 
例如 : "$1" 与 "$*", 这 么 做 可 以 防止 居心 不 良 的 用 户 输入 作 超 出 范围 的 计算 与 执 
行 。 
勿 站 用 户 答 人 上 使 用 eval 
甚至 在 引用 用 户 输 入 之 后 ， 也 不 要 使 用 eval 将 它 交 给 Shell 再 处 理 。 如 果 用 户 读 
了 你 的 脚本 ，. 发 现 你 使 用 eval ， 就 能 很 轻松 地 利用 这 个 脚本 进行 任何 破坏 。 
引用 通 配 字符 展开 的 结 黑 
“你 可 以 将 空格 .分 号 、 反 斜 杠 等 放 在 文件 名 里 ,让 球 手 的 事情 交 给 系统 管理 员 处 理 。 
”如 果 管 理 的 脚本 未 引用 文件 名 参数 ， 此 脚本 将 会 造成 系统 出 问题 。 


检查 用 户 答 人 是 否 有 meia 字符 
如 果 使 用 eval 或 $(...) 里 的 输入 ,请 检查 是 否 有 像 $ 或 ` (旧式 命令 殖 换 ) 这 
类 的 meta 字符 。 : 


葵 冲 你 的 代码 ， 并 小 心 建 算 赔 读 它 
寻找 是 否 有 可 被 利用 的 漏洞 与 错误 。 把 所 有 坏 心 眼 的 想法 都 考虑 进去 ， 小 心 研究 你 
的 代码 ， 试 着 找 出 破坏 它 的 方式 ， 再 修正 你 发 现 的 所 有 问题 。 


留意 竞争 条 你 (race condition ) 
攻击 者 是 不 是 可 以 在 你 脚本 里 的 任 两 个 命令 之 间 执 行 任意 命令 ,这 对 安全 性 是 否 有 
危害 ?如 果 是 ,换个 方式 处 理 你 的 脚本 吧 ! 

对 符号 隆 渤 玲 心 存 乓 疑 
在 chmod 文件 或 是 编辑 文件 时 ， 检 查 它 是 否 真 的 是 一 个 文件 ， 而 非 连接 到 某 个 关 
键 性 系统 文件 的 符号 性 连接 (利用 [ -1 file 1] 或 [ -h file ] 检 测 file 是 
否 为 一 符号 性 连接 ) 。 

茂 其 他 人 重新 检查 你 的 性 序 ， 看 在 是 否 育 问题 
通常 另 一 双眼 睛 才能 找 出 原作 者 在 程序 设计 上 陷入 的 罕 点 。 


尽 可 能 用 setgid 而 不 要 用 setuid 
这 些 术语 在 本 章 稍 后 有 探讨 。 简 而 言 之 ,使 用 setgid 能 将 损害 范围 限制 在 某 个 组 内 。 
使 用 新 有 的 用 户 而 不 十 root 
如 果 你 必须 使 用 setuid 访 问 一 组 文件 , 请 考虑 建立 一 个 新 的 用 户 , 非 root 的 用 户 
做 这 件 事 并 设置 setuid 给 它 。 
尽 可 能 良和 制 使 用 setuid 的 代码 
尽 可 能 让 setuid 代 码 减 到 最 少 。 将 它 移 到 一 个 分 开 的 程序 , 然后 在 大 型 脚本 里 有 需 
要 时 才 引 用 它 。 无 论 如 何 , 请 做 好 代码 防护 , 好 像 脚本 可 以 被 任何 人 于 任何 地 方 引 
用 那样 ! 
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bash 维 护 工程 师 Chet Ramey 提 供 了 下 列 代码 的 开场 白 , 给 那些 需要 更 多 安全 性 的 Shell 
脚本 使 用 : 


# Reset IFS. Even though ksh doesn't import IFS from the environment, 
# SENV could set it. This uses Special bash and ksh93 notation, 

# not in POSIX. 

IFS=$' \t\n' 


# Make sure unalias is not a function, since it's a regular built-in. 
# unset is a special built-in, so it will be found before functions. 
unset -f unalias 


# Unset all aliases and quote unalias so it's not alias-expanded. 
\unalias -a 


# Make sure command is not a function, since it's a regular built-in. 
# unset is a special built-in, so it will be found before functions. 
unset -f command 


# Get a reliable path prefix, handling case where getconf is not 


# available. 
SYSPATH="$ (command -p getconf PATH 2>/dev/null)" 
if [[ -z "$SYSPATH" ]]; then 
SYSPATH=" /usr/bin: /bin" # pick your poison 
£1 


PATH="$SYSPATH: $PATH" 


这 段 代码 使 用 了 许多 非 POSIX 的 扩展 ， 这 在 14.3 节 里 已 说 明 。 


15.2 限制 性 Shell 


限制 性 Shell (restricted Shell) 的 设计 , 是 将 用 户 置 于 严格 限制 文件 写 入 与 移动 的 环境 
中 ,用 户 多 半 是 使 用 访客 (guest) 账号 。POSIX 并 未 定义 提供 限制 性 Shell 的 环境 ,“ 因 
为 它 并 未 提供 历史 文件 中 所 暗示 的 安全 性 限制 "。 然 而 ,ksh93 与 bash 两 者 都 提供 这 一 
功能 ， 我 们 将 在 此 介绍 它们 。 


当 被 引用 为 rksh 时 (或 使 用 -选项 ) 时 ，ksh93 即 为 限制 性 Shell。 你 可 以 让 用 户 的 
登录 受 限 制 ， 方 法 是 放置 rksh 的 完整 路 径 名 称 在 用 户 的 /etc/passwd 里 。ksh93 可 
执行 文件 必须 连接 到 名 为 rksh 之 处 ， 以 执行 此 操作 。 


限制 性 ksh93 的 特定 限制 不 允许 用 户 做 下 列 操作 。 这些 功能 有 部 分 是 仅 ksh93 适 用 , 要 
了 解 更 多 信息 ， 可 见 参 考 书目 中 的 《Learning the Korn Shell》: 


。 ”变更 工作 目录 : cd 是 没有 作用 的 。 如 果 你 尝试 使 用 它 , 会 收 到 错误 信息 ksh: cd: 


restricted,。 
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。 .不 允许 重 定向 输出 到 文件 : 重 定向 运算 符 >、>1、<>， 与 >> 都 不 被 允许 。 这 点 不 
包含 exec 的 使 用 。 


。 ”指定 新 值 给 环境 变量 ENV、FPATH、PATH 或 SHELL， 或 试图 以 typeset 改变 它们 的 
属性 。 

。 ”标明 任何 带 有 和 斜 杠 (/) 的 命令 路 径 名 称 。Shell 仅 执行 在 $SPATH 里 找到 的 命令 

。 ”使 用 builtin 命 令 ， 增 加 新 的 内 置 命 令 

类 似 于 ksh93 的 是 当 引 用 为 rbash 时 ,bash 即 扮演 限制 性 Shell 的 角色 , 而 bash 可 

执行 文件 必须 连接 到 ribash， 以 执行 此 任务 。bash 的 限制 性 运算 列表 和 ksh93 很 类 

似 。 下 面 列表 里 的 功能 ， 有 部 分 是 bash 所 特有 的 (参考 自 bash(1) 而 来 )， 不 过 我 们 不 

在 本 书 多 作 介绍 。 要 了 解 进一步 信息 ， 见 bash(1) 手 册页 : 

。 ”以 ca 切换 目录 。 

。 ”设置 或 解除 设置 SHELL、PATH、ENV 或 BASH_ENV 的 值 。 

。 ”标明 含有 /的 命令 名 称 。 

。 ”标明 含有 /的 文件 名 ， 作 为 . (点 号 ) 内 置 命令 的 一 个 参数 。 

。 ”在 内 置 命 令 hash 里 使 用 -p 选项 ， 指 定 含有 /的 文件 名 作为 参数 。 

。 ”在 启动 时 ， 自 Shell 环境 导出 函数 定义 。 

. 在 启动 时 ， 自 Shell 环境 解析 SHELLOPTS 的 值 。 

。 ”使 用 >、>|、<>、>&、&>， 与 >> 重 定向 运算 符 ， ` 重 定向 输出 ， 

。 ”使 用 exec 内 置 命令 ;用 另 一 个 命令 取代 Shell。 

。 以 内 置 命 令 enable 搭配 - E 或 - d 选 项 ， 增加 或 删除 内 团 命 令 。 

。 ”使 用 enable 内 置 命令 ， 启 用 已 停 用 的 Shell 内 置 命令 。 

。 为 内 置 命令 commana 标 明 - -PD 选项。 

. | 使 用 set +r 或 set +o restricted 关 闭 限 制 性 模式 。 和 

对 这 两 个 Shell 而 言 , 这 些 限制 都 是 在 用 户 的 .profile 与 环境 文件 被 执行 之 后 才 生效 。 


即 I .profile 里 。 0 
环境 。 


要 防止 用 户 覆 盖 -~/. profile, 只 把 文件 权限 设置 为 用 户 只 读 是 不 够 的 。 根 目录 不 应 该 
被 用 户 写 和 人， 或 是 ~/. profile 里 的 命令 也 不 应 该 cd 到 不 同 的 目录 下 。 
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建立 这 类 环境 常用 的 两 种 方式 便 是 设置 “安全 ”命令 的 目录 ， 然 后 让 该 目录 为 PATH 里 
的 唯一 一 个 ,以 及 设置 命令 选单 。 其 中 ,用 户 没有 离开 Shell 是 不 能 跳 离 的 。 无论 如 何 ， 
请 确定 $SPATH 下 的 任何 目录 中 没有 其 他 Shell 否则 , 用户 只 要 执行 该 Shell, 就 能 避 开 
先前 列 的 限制 。 同 时 ， 也 要 确认 .$PRATH 下 没有 任何 程序 允许 用 户 起 始 Shell ， 像 是 来 自 
eqd、ex 或 vi 文本 编辑 器 的 “Shell 转 义 (Shell escape)”。 





警告 虽然 自 原始 的 Version 7 Bourne Shell 起 ， 重 拥 有 限制 性 Shell Wi 但 被 使 用 的 很 少 ， 
因为 设置 一 个 可 用 又 正确 的 限制 性 环境 其 实 并 不 容易 。 





15.3 特洛伊 木马 
特洛伊 本 马 是 看 起 来 无 害 ， 有 时 甚至 会 误 以 为 它 很 有 用 ， 但 却 隐 茂 危险 的 东西。 
想 想 下 面 这 样 的 情况 : 用 户 John Q，( 登 录 名 称 为 jprog) 是 一 个 顶尖 的 程序 设计 师 。 抽 


有 一 些 个 人 程序 ,就 放 在 ~jprog/bin 里 ,这 个 目录 出 现在 ~jprog/ .profile 里 PATH 
变量 的 第 一 个 。 因 为 他 是 这 样 优秀 的 程序 设计 师 ， 不 久 便 被 提升 为 系统 管理 者 。 


这 对 他 而 言 是 一 个 全 新 的 领域 ， 而 John 在 不 注意 的 情况 下 ，. 仍 将 它 的 bin 目录 保留 予 
其 他 用 户 可 以 写 入 。 这 时 有 个 居心 不 良 的 W.M. 先生 ， 建立 了 这 样 的 Shell 脚本 ， 名 为 
grep， 放 在 John 的 pin 目录 里 ; 


/bin/grep "S$@" 


case $ (whoami) in 检查 有 效 的 用 户 ID 名 称 
root) nasty stuff here 危险 的 操作 就 放 在 这 1! 


rm ~/jprog/bin/grep - 隐匿 罪行 


Sac 


本 质 上 , 当 jprog 以 自己 的 身份 在 做 事 时 ， 这 个 脚本 不 会 有 任何 危险 。 问题 出 在 他 使 用 
上 了 su 命令 之 后 。su 命令 可 以 让 一 般 用 户 切 换 到 不 同 的 身份 。 通 常用 法 是 : 让 一 般 用 户 
成 为 oot (当然 ， 前 提 是 这 个 用 户 必 须知 道 密码 )。 接 下 来 ，su 会 使 用 它 继承 的 任何 
PATH 设置 ( 注 2)。 在 这 里 的 情况 是 : PATH 包 括 了 ~jprog/bin。 现在, 当 jprog 以 
root 身份 工作 ,执行 grep 时 ， 确实 执 行 的 是 他 bin 目录 下 的 特洛伊 木马 版 本 。 这 个 
版 本 还 是 会 执行 真正 的 grep, 所 以 jprog 仍 能 得 到 他 要 的 结果 。 但 更 重要 的 是 , 接 下 
来 脚本 还 会 以 root 身份 执行 一 连 串 nasty stuff here 处 所 指定 的 命令 。 即 该 UNIX 会 让 
脚本 为 所 欲 为 。 当 一 切 操 作 完 成 ， 特 洛 伊 木马 也 删除 ， 不 留任 何 证 据 。 


注 2: 使 用 su user 切换 用 户 ， 就 会 像 用 户 釜 录 一 般 ， 可 防止 导入 已 存在 的 PATH， 
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可 写 入 的 bin 目录 为 特洛伊 木马 敞开 了 大 门 ， 如 同 在 PATH 里 具有 点 号 ，( 想 想 看 ， 要 
是 zxoot 执行 ca 切换 到 含有 特洛伊 脚本 的 目录 中 , 而 且 点 号 是 在 root 的 PATH 里 且 位 
置 又 先 于 系统 目录 时 , 会 发 生 什么 事 ) 。 让 可 写 人 的 Shell 脚 本 放 在 任何 bin 目录 下 更 是 
另 一 个 大 门 。 就 好 像 你 晚上 会 关闭 并 锁 上 家 门 一 样 ,你 应 该 确定 关上 系统 上 的 任何 大 门 。 


15.4 为 Shell 脚本 设置 setuid: 坏 主 意 


UNIX 安全 性 上 的 问题 有 很 多 是 出 在 它 的 一 个 文件 属性 上 ， 称 为 setuid (设置 用 户 ID ) 
位 。 这 是 一 个 特殊 权限 位 : 当 一 个 可 执行 文件 将 它 打 开 时 , 身份 会 立即 转换 为 与 文件 拥 
有 者 相同 的 一 个 有 效用 户 ID。 这 个 有 效 的 用 户 ID 与 进程 真正 的 用 户 ID 并 不 同 ，UNIX 
以 进程 的 有 效用 户 ID 进行 权限 检测 。 


假设 你 编写 了 一 个 游戏 程序 , 可 保留 私有 分 数 记录 文件 , 显示 前 15 名 系统 里 的 玩家 。 你 
不 希望 这 个 分 数 文件 任何 人 都 能 写 信 , 因为 这 么 一 来 任何 人 只 要 动 点 手脚 , 就 能 让 自己 
成 为 高 分 的 玩家 。 如 果 让 你 的 游戏 setuid 为 你 的 用 户 ID, 则 只 有 你 自己 拥有 的 游戏 程序 
可 以 更 新 文件 , 其 他 人 都 不 行 (游戏 程序 可 以 通过 查看 它 的 真实 用 户 ID 来 知道 谁 在 执行 
它 ， 并 使 用 它 来 决定 登录 名 称 ) 。 


setuid 工具 对 游戏 与 分 数 文件 来 说 是 一 个 不 错 的 功能 ， 如 果 设 为 root 时 ， 它 就 可 能 变 
得 相当 危险 。 将 程序 setuid 为 root, 可 便于 管理 者 处 理 需 要 root 权限 的 文件 (例如 配 
置 打印 机 )。 为 了 设置 文件 的 setuid 位 , 只 要 输入 chmod u+s filename 即 可 。 对 root 
拥有 的 文件 设置 setuid 是 很 危险 的 事 , 所 以 建议 不 要 在 chown root file 后 执行 chmod 


U+S file。 


类 似 的 工具 程序 , 在 组 层级 上 也 有 , 也 就 是 setgid (设置 组 ID)。chmod g+s filename 
即 可 打开 setgid 权限 。 当 你 执行 1s -1 了 时, 在 setuid 与 setgid 的 文件 上 ， 会 出 现 s 权 
限 模式 ,取代 原 有 的 x。 例如 -rws--s--x 的 文件 指 的 便 是 拥有 者 可 读 取 与 写 和 人 、 任何 
人 可 执行 ， 且 setuid 与 setgid 位 都 已 设置 (八进制 模式 为 6711)。 


现代 系统 管理 的 智慧 认为 ,设置 setuid 与 setgid 的 Shell 脚本 是 一 个 可 怕 的 想法 。 尤 其 在 
C Shell 下 更 受 影响 , 因为 它 的 . cshrc 环 境 文件 有 太 多 可 供 破坏 的 地 方 。 而 且 ， 它 也 有 
很 多 方式 可 以 将 setuid 的 Shell 脚本 转化 成 交互 式 的 Shell， 而且 是 以 root 的 有 效用 户 
ID。 这 就 是 骇 客 (cracker) 的 希望 : 拥有 root 执行 任何 命令 的 能 力 。 我 们 从 htip:W/ 
www.fagqs.org/faqs/unix-faq/faq/part4/section-7.html 借 来 一 个 例子 : 


… 好 ， 假 设 有 个 脚本 叫 作 /etc/setuid_script， 一 开始 是 这 样 : 
#!/bin/sh 
现在 我 们 来 看 看 假设 执行 了 下 面 的 命令 ,会 发 生 什么 事 : 
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cd /tmp 
ln /etc/setuiqd script -i 
PATH=. 
-i 
我 们 知道 ， 最 后 一 个 命令 将 重新 安排 成 ; 
/bin/sh -i 
因此 ， 此 命令 会 给 我 们 一 个 交谈 模式 的 Shell，setuid 为 该 脚本 的 拥有 者 ! 幸好 这 个 安全 性 黑洞 可 以 通 
过 ， 将 第 一 行 指 定 为 : 
#!1/bin/sh - 
解决 掉 。 将 - 置 于 选项 列表 的 结尾 ， 则 下 一 个 参数 ~i 将 被 视 为 文件 名 ， 正 常 让 命令 读 取 之 。 


rv 


正 因 为 如 此 ，POSIX 才 容 许 在 /bin/sh 的 选项 结尾 处 使 用 单一 - 字符 。 


注意 : 





setuid 的 Shell 脚 本 与 一 个 setuid Shell 之 间 的 差异 必须 特别 留意 。 后 者 为 Shell 可 执行 版 的 
副本 , 它 是 属于 root 并 应 用 setuid 位 。 以 上 一 节 的 特洛伊 木马 为 例 , 假定 nasty stuff here 
部 分 是 这 样 的 : 

cp /bin/sh ~badguy/bin/myls 


chown root ~badguy/bin/myls 
chmod u+s ~badguy/bin/myls 


还 记得 ， 这 段 代 码 以 root 身份 执行 ， 所 以 它 是 可 以 运作 的 。 当 心怀 不 轨 的 badguy 执行 


了 my1s， 它 是 一 个 机 器 码 的 可 执行 文件 , 且 应 用 setuid 位 。 待 Shell 再 回 到 root 手中 时 ， 
系统 的 安全 性 便 荡 然 无 存 了 。 





事实 上 ，setuid 与 setgid 的 Shell 脚本 所 带 来 的 危险 ， 在 现行 UNIX 系统 上 都 必须 特别 留 
意 。 包 括 商用 UNIX 系统 与 自由 软件 (派生 自 BSD 4.4 与 GNU/Linux) ， 都 停 用 了 Shell 


脚本 上 的 setuid 与 setgid 位 。 即 便 你 在 文件 里 应 用 这 些 位 ， 操 作 系统 也 不 会 有 任何 操作 


( 注 3)。 


我 们 也 发 现 现在 的 很 多 系统 加 载 时 可 选择 是 否 针对 整个 文件 系统 停 用 setuid/setgid 位 。 


这 在 网 络 式 加 载 的 文件 系统 上 , 还 有 那些 可 删除 式 媒 体 上 , 例如 软驱 与 光驱 , 绝对 是 件 


好 事 。 


15.5 ksh93 与 特权 模式 


注 3: 


Korn Shell 特权 模式 的 设计 就 是 为 了 对 付 setuid 的 Shell 脚本 。 这 是 一 个 ge -0 选项 





Mac OS X 与 最 新 的 OpenBSD 版 本 是 我 们 发 现 的 两 个 例外 ， 如 果 你 在 这 类 系统 下 做 事 ， 
请 特别 留意 1 我 们 发 现 Solaris 9 只 有 在 文件 拥有 者 非 Yoot 时 ， 才 执行 setuid 的 操作 。 
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(set -o privileged 或 set -p), 无 论 何 时 当 Shell 执行 之 脚本 已 设置 setuid 位 时 ， 
Shell 便 会 自动 输入 它 ， 也 就 是 说 ， 当 有 效用 户 ID 与 实际 用 户 ID 不 同时 。 


在 特权 模式 下 , 引用 一 个 setuid 的 Korn Shell 脚 本 时 , Shell 会 执行 /etc/suid_profile 
文件 。 此 文件 应 写成 限制 setuid Shell 脚本 ,一 如 限制 性 Shell 那 样 。 至 少 , 它 会 将 PATH 
设 为 只 读 . (typeset -r RATH 或 readonly PATH)， 然 后 设置 它 为 一 到 多 个 “安全 的 ” 
目录 。 再 说 一 次 ， 这 是 用 以 避 开 引用 时 的 所 有 陷阱 。 


因为 特权 模式 是 选用 的 ， 所 以 你 也 可 使 用 set +o privileged (或 set +p) 将 它 关 
闭 。 然 而 ,这 对 潜在 的 系统 骇 客 产生 不 了 帮助 ，Shell 会 自动 地 将 它 的 有 效用 户 ID 切换 
为 相同 的 真实 用 户 ID。 也 就 是 说 ， 当 你 关闭 特权 模式 时 ， 同 时 也 关闭 了 setuid。 


除 特 权 模 式 外 ,ksh 另 提 供 了 一 个 特殊 的 “代理 "程序 , 会 执行 setuid 的 Shell 脚 本 (或 
可 执行 但 不 可 读 取 的 Shell 脚本 )。 


为 此 ， 脚 本 的 开头 不 应 以 #! /bin/ksh 起 始 。 当 程序 被 引用 时 ，ksh 会 试图 以 正规 二 
进 制 可 执行 文件 的 方式 执行 程序 。 当 操作 系统 无 法 执行 脚本 (因为 它 不 是 二 进 制 的 ,及 
因为 它 没 有 #1 标明 的 解 译 器 名 称 ) 时 ，ksh 会 认为 它 是 脚本 ， 及 使 用 脚本 的 名 称 与 它 
的 参数 引用 /etc/suid.exec。 除 此 之 外 , 它 还 会 安排 传递 一 个 认证 “token” 给 /etc/ 
suid_exec, 指出 脚本 的 有 效用 户 与 组 ID。 /etc/suid_exec 会 从 证 执行 脚本 是 否 是 安 
全 的 ， 再 安排 以 该 脚本 的 适当 真实 用 户 与 组 ID 引用 ksh。 


然 结合 特权 模式 与 /etc/suiG_exec 可 以 避免 很 多 setuid 脚 本 上 的 攻击 , 但 编写 一 个 
可 全 sewit 的 和 人 其 实 是 一 门 很 大 的 学 问 ， 需要 很 多 的 知识 与 经 验 ， 应 小 心 对 待 。 


虽然 setuid 的 Shell 脚本 在 现今 系统 上 不 能 工作 ， 但 有 时 特权 模式 也 是 很 好 用 的 。 特别 
是 它 已 广泛 应 用 在 第 三 方 所 提供 的 程序 sudo 上 , 该 程序 引用 自 网 页 上 的 说 法 ,允许 系 
统管 理 者 给 予 特 定 用 户 (或 一 群 用户 )， 以 root 或 另 一 个 用 户 身 份 执 行 部 分 (或 所 有 ) 
命令 的 能 力 , 其 官 方 网 站 为 : htip:/www:courtesan.com/sudo. 系统 管理 者 如 要 了 解 执行 
管理 性 工作 的 环境 ， 只 要 执行 sudo /bin/ksh -p 即 可 。 


编写 安全 的 Shell 脚本 也 是 保全 UNIX 系统 安全 的 一 评 。 二 本 间 控 计 不 过 是 友 毛 ， 我 们 建 
议 你 深入 研究 UNIX 系统 安全 的 相关 信息 ( 见 “ 参 考 书目 ”)。 一 开始 我 们 就 列 出 编写 安 
全 性 Shell 脚本 的 提示 ， 这 些 都 是 UNIX 安全 性 领域 的 专家 所 认可 的 。 


接 下 来 介绍 的 是 限制 性 Shell, 它 可 以 停 用 许多 具 湾 在 危险 的 操作 ; 其 环境 构建 于 用 户 的 
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.profile 文 件 里 , 该 文件 会 在 限制 性 用 户 登录 时 执行 。 实 际 上 , 限制 性 Shell 其 实 很 难 
正确 地 设置 与 使 用 ， 我 们 建议 你 找 其 他 方式 设置 限制 性 环境 。 


特洛伊 木马 是 看 似 无 害 但 实际 上 会 对 系统 产生 攻击 的 程序 我 们 带 你 看 过 几 种 特洛伊 木 
马 的 建立 方式 ， 但 其 实 还 有 更 多 。 


设置 setuid 的 Shell 脚本 不 是 个 好 主意 , 几乎 所 有 近期 的 UNIX 系 统 都 已 停 用 它 , 因为 很 
难关 掉 它 所 打开 的 安全 性 漏洞 。 你 必须 花 时 间 仔细 确认 你 的 系统 是 否 已 停 用 它们 , 如 果 
没有 ， 请 定期 查找 系统 里 是 否 还 有 这 类 文件 。 


最 后 ， 我 们 简短 地 带 过 Korn Shell 的 特权 模式 ， 它 的 目的 是 在 解决 诸多 与 Shell 脚本 相 
关 的 安全 性 议题 。 
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计算 机 精品 学 习 资料 大 放送 


软考 官方 指定 教材 及 同步 辅导 书 下载 1 软考 历年 真是 解析 与 答案 

软考 视频 1 考试 机 构 | 考试 时 间 安 排 

Java 一 览 无 余 : Java 视 频 教程 1 Java SE | Java EE 

.Net 技 术 精 品 资料 下 载 汇 总 ，ASP.NET 篇 

.Net 技 术 精 品 资料 下 载 汇 总 ，C# 语 言 篇 

.Net 技 术 精 品 资料 下 载 汇总 ，VB.NET 篇 

撼 世 出 击 : C/C++ 编程 语言 学 习 资 料 尽 收 眼底 电子 书 + 视频 教程 

Visual C++(VC/MFO) 学 习 电 子 书 及 开发 工具 下 载 

PerVCGI 脚 本 语言 编程 学 习 资源 下 载 地 址 大 全 

Python 语言 编程 学 习 资料 (电子 书 + 视 频 教程 ) 下 载 汇总 

最 新 最 全 Ruby、Ruby on Rails 精 品 电子 书 等 学 习 资料 下 载 

数据 库 管理 系统 (DBMS) 精 品 学 习 资 源 汇总 : MySQL 篇 1SQL Server 篇 1Oracle 篇 
平面 设计 优秀 资源 学 习 下 载 1Flash 优 秀 资源 学 习 下 载 13D 动 画 优秀 资源 学 习 下 载 
最 强 HTML/xHTML、CSS 精 品 学 习 资 料 下 载 汇 总 

最 新 JavaScript、Ajax 典 藏 级 学 习 资料 下 载 分 类 汇总 

网 络 最 强 PHP 开 发 工具 + 电子 书 + 视频 教程 等 资料 下 载 汇 总 

UML 学 习 电子 资 下 载 汇总 软件 设计 与 开发 人 员 必 备 

经 典 LinuxCBT 视 频 教程 系列 Linux 快 速 学 习 视 频 教 程 一 帖 通 

天 罗 地 网 : 精品 Linux 学 习 资料 大 收集 (电子 书 + 视频 教程 ) Linux 参 考 资 源 大 系 
Linux 系 统管 理 员 必 备 参 考 资料 下 载 汇 总 

Linux shell、 内 核 及 系统 编程 精品 资料 下 载 汇总 

UNIX 操 作 系 统 精 品 学 习 资料 < 电子 书 + 视频 > 分 类 总 汇 
FreeBSD/OpenBSD/NetBSD 精 品 学 习 资 源 索 引 含 书 籍 + 视频 
Solaris/OpenSolaris 电 子 书 、 视 频 等 精华 资料 下 载 索 引 


>> 更 多 精品 资料 请 访问 大 家 论坛 计算 机 区 .… 
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程序 用 户 需 要 说 明文 件 , 程序 设计 者 同样 也 需要 它 , 当 他 们 最 近 很 少 用 到 这 个 软件 的 时 
候 。 可惜 的 是 , 很 少 有 计算 机 书籍 提 及 软件 说 明文 件 的 制作 ,所 以 就 算 用 户 想 为 程序 写 
一 份 好 文件 ， 也 不 晓得 怎么 做 ， 甚 至 不 知 从 何 开始 。 本 附录 便 是 为 了 填补 这 样 的 不 足 。 


在 UNIX 中 ， 简 短 的 程序 文件 多 半 为 手册 页 (manual page) 的 形式 ， 以 nroff/troff 
标记 (markup) 写成 ( 注 1), 可 通过 man、nroff -man 或 groff -man 以 简单 的 ASCII 
文本 显示 ,使 用 ditroff -man -Txxx、groff -man -Txxx 或 troff -man -Txxx 
显示 设备 xxx 的 排版 方式 ， 或 在 X Windows 下 [以 groff -Tx -man 检查 。 


较 宛 长 的 软件 说 明文 件 一 直 以 来 都 是 提供 使 用 手册 或 技术 报告 ， 通 常 是 trzoff 标记 形 
式 ， 并 以 PostScript 或 PDF 的 形式 打印 。troff 标记 完全 不 是 以 人 类 看 得 懂 的 方式 定 
义 ， 因此 , GNU Project 选 择 另 一 种 完全 不 同 的 方式 : Texinfo 文 件 系统 ( 注 2)。Texinfo 
标记 认为 比 通用 的 troff 包 更 高 级 ， 且 就 像 troff 一样， 也 允许 以 简单 ASCII 文 本 以 
及 TEX 排版 系统 ( 注 3) 检查 。 最 重要 的 是 : 它 支 持 超 文本 链接 ， 让 用 户 在 浏览 整个 在 
线 文档 时 更 方便 。 





注 1: 虽然 nroff 是 在 上 roffE 之 前 开发 完成 ， 但 从 用 户 的 角度 来 看 ， 这 两 个 系统 其 实 是 类 似 
的 : ditroff 与 groff 模拟 这 两 者 。 


注 2: 见 Robert J. Chassell 与 Richard M. Stallman 的 《Texinfo: The GNU Documentation 
Format》， 由 Free Software Foundation 于 1999 年 出 版 ，ISBN: 1-882114-67-1。 


注 3: 见 Donald E. Knuth 的 《The TEXbook》， 由 Addison-Wesley 于 1984 年 出 版 ，ISBN: 
0-201-13448-9 。 


435 


www.TopSage.com 


436 附 承 A 


大 部 分 你 在 UNIX 系统 里 读 到 的 在 线 文 档 , 可 能 都 是 以 早期 的 troff ( 注 4) 或 Texinfo 
( 注 5) 标记 形成 。Texinfo 系统 里 的 makeinfo 程 序 可 以 产生 ASCII、HTML、XML 与 
DocBook/XML 格式 的 输出 。 Texinfo 文件 可 直接 由 TEX 排版 ， 其 输出 为 DVI (device- 
independent) 文件 ， 该 文件 格式 可 通过 后 端 DVI 驱动 程序 转 成 数 种 设备 格式 。 


当然 能 用 的 不 只 有 这 些 标记 格式 。Sun Microsystems 自 Solaris 7 开始 ， 即 以 SGML 格 
式 提 供 (几乎 ) 所 有 的 手册 页 , 而 Linux Documentation Project ( 注 6) 推动 XML (SGML 
子 集 ) 标记 ， 有 助 于 该 单位 将 GNU/Linux 文件 转换 为 世界 各 国语 言 的 目标 。 


那么 ，UNIX 的 程序 设计 者 究竟 应 使 用 哪个 标记 系统 呢 ? 经 验 告诉 我 们 ， 使 用 高 级 标记 
较 佳 ,即便 它 较 元 长 , 但 绝对 值得 .SGML (HTML 与 XML) 建立 在 严谨 的 语法 上 ,所 
以 在 它们 编译 为 可 显示 的 页 面 之 前 , 文件 的 逻辑 架构 仍 是 很 好 验证 的 。 有 了 充分 详细 的 
标记 , SGML 文 件 即 能 可 靠 地 转换 为 其 他 标记 系统 , 事实 上 ， 有 些 书 及 杂志 出 版 商 正 是 
这 么 做 : 作者 以 任意 文件 格式 交 稿 , 出 版 商 将 其 转换 为 SGML, 然后 再 使 用 troff、 TEX 
或 其 他 排版 系统 作为 后 端 ， 产 生 打印 机 可 读 取 的 页 面 。 


不 幸 的 是 SGML 软 件 工具 集 仍 不 够 充分 , 且 未 完整 标准 化 , 因此 要 达到 软件 文件 最 大 的 
可 移植 性 ， 可 能 还 是 使 用 troff 或 Texinfo 标 记 之 一 比较 好 。 以 手册 页 来 说 ， 如 果 可 以 
使 用 man 命令 ， 则 使 用 troff 格式 较 佳 。 


最 后 , 有 人 仍 希 望 能 做 出 自动 化 转换 两 个 标记 系统 的 产物 , 不 过 这 样 的 目标 其 实 很 难 做 
到 。 你 现在 能 做 的 ， 便 是 用 troff 标 记 的 限制 式 子 集 编写 手册 页 , 让 它们 能 自动 转换 为 
HTML 与 Texinfo。 要 达到 此 目标 , 你 必须 安装 两 个 包 : man2html 与 man2texi ( 注 7)。 


pathfind 的 手册 页 


即便 完整 介绍 标记 系统 文件 的 书 很 多 ， 不 过 你 可 以 从 我 们 这 里 的 介绍 ， 更 轻松 地 学 习 、 
了 解 Eroff 子 集 。 我 们 在 这 里 会 逐步 介绍 ， 就 像 在 8.1 节 里 分 段 介绍 pathfind 脚 本 那 
样 ， 最 后 会 再 将 这 些 片段 集结 成 完整 的 手册 页 文件 ， 呈 现 于 例 A-1。 


在 开始 前 ， 我 们 先 介绍 一 下 nroff/troff 标 记 语言 。nzoff 建 置 在 早期 文本 格式 化 系 
统 的 经 验 上 ， 例 如 DEC 的 zunoffE 及 产生 ASCI 打 印 设备 的 输出 结果 。 当 贝尔 实验 室 


注 4: 见 htip://www.troff.org/。 
注 5: 见 http://www.gnu.org/software/texinfo/, 
注 6: 见 http://www.tlidp.org/, 


注 7: 可 自 htip://www.math.utah.edu/pub/man2htmls http:/www.math.utah.edu/pub/man2texi 
取得 。 
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需要 照相 凸版 排版 系统 时 ,txzoff 这 个 用 于 产生 排版 页 面 的 新 程序 就 诞生 了 .troff 为 
最 早期 计算 机 排版 的 尝试 中 成 功 的 一 个 。 这 两 个 程序 都 接受 相同 格式 的 输入 , 所 以 当 我 
们 说 troff 时 ， 通 常 也 是 指 nroff。 


早期 UNIX 系 统 是 在 极 小 内 存 的 微型 计算 机 上 执行 ,显然 并 不 适 于 处 理 这 些 格式 化 程序 。 
txzoff 命令 ,一 如 许多 UNIX 命令 ,是 隐 密 的 与 简短 的 。 大 部 分 出 现在 一 行 的 开头 ,， 形 
式 为 一 个 点 号 ， 接 上 一 或 两 个 字母 或 数字 。 其 字体 的 选择 也 是 有 限 的 : 只 有 roman、 粗 
体 、 斜 体 ， 及 后 来 的 等 宽 字体 这 几 种 形式 而 已 。troff 的 文件 里 ,空格 与 空白 行 是 有 意 
义 的 : 输入 两 个 空格 字符 ， 人 


然而 ,简单 的 命令 格式 令 troff 文 件 的 解析 更 容易 , 且 许 多 前 端 处 理 程序 已 被 开发 为 所 
供 简单 的 方程 序 、 图 形 、 图 片 与 表格 的 规格 。 它 们 消耗 troff 数据 流 , 并 产生 比 原始 数 
据 流 稍 大 一 些 的 输出 。 


虽然 完整 的 roff 命 令 其 实 内 容 庞大 , 但 通过 _man 选 项 所 选 定 的 手册 页 风格 只 《有 一 些 
命令 。 它 不 需要 前 端 处 理 程序 ， 所 以 手册 页 里 没有 方程 或 图 片 ， 表 格 也 很 少 。 


手册 页 文件 的 版 面 配置 相当 简单 , 六 七 行 标准 的 顶层 标题 段落 , 穿插 着 一 些 文本 的 格式 
化 段落 ， 及 缩 进 的 、 定 标签 的 区 块 。 就 像 你 每 次 使 用 man 命令 所 看 到 的 那样 。 


手册 页 的 检查 方式 , 长久 以 来 累积 了 相当 多 种 类 , 在 显示 的 文体 上 也 有 很 大 的 不 同 ， 当 
标记 是 视觉 的 而 非 逻辑 的 时 候 较 容易 被 预期 我 们 在 此 选择 的 字体 ， 只 是 建议 性 , 而 非 
强制 一 定 要 使 用 。 


现在 是 开始 编写 pathfind 手 册页 的 时 候 了 , 这 是 一 个 相当 简单 的 程序 ， 因 此 它 的 标记 
不 致 太 难处 理 。 


我 们 从 注释 性 语句 开始 , 因为 每 个 计算 机 语言 都 应 该 要 有 。troff 的 注释 从 反 斜 线 引用 
(backslash-quote) 开始 ， 直 至 结尾 ,但 不 包含 enG-of-1ine。 当 它们 紧 接 在 初始 的 点 
SN | : ed 


由 于 trofE 输 入 不 能 被 缩 进 处 理 ， 所 以 它 看 起 来 非常 密集 。 我 们 发 现 ， 在 标 头 段落 之 前 
的 等 号 注释 行 会 让 它们 比较 好 辨识 ， 且 我 们 时 常 使 用 相当 短 的 输入 行 。 


每 个 手册 页 文件 都 以 Text Header 命令 ( .TH) 开始 ， 其 至 多 可 带 有 4 个 参数 : 大 写 命 
令 名 称 、 手 册 段 落 编号 (数字 的 1 为 用 户 命令 )， 以 及 可 选用 的 再 版 日 期 与 版 本 编号 。 这 
些 参数 用 以 构建 执行 中 的 页 面 标 头 与 格式 化 后 输出 文件 的 页 尾 : 


.TH PATHFIND 1 **."1.00" ” ， 
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Section Heading: (部 分 标题 ) 命令 《.SH) 则 只 带 有 一 个 参数 ,如 含有 空格 ,请 引用 它 。 
且 请 遵循 手册 页 惯例 ， 以 大 写字 母 表示 : 。 … 


NAME 段落 的 主体 ; 提供 的 是 apropos (等 同 于 man. -k) 命令 所 需 的 要 件 ， 它 应 该 只 
有 一 行 ， 结 尾 不 带 有 任何 标点 符号 。 形 式 为 command - description: 


pathfina \ {em fina files jn directory path 


人 
也 就 是 大 约 是 字母 m 宽 度 的 水 平行 。 前 置 一 个 空格 并 且 接 着 em - ( 破 折 号 )。 较 旧 的 手 
册页 用 的 是 \- ( 负 号 )， 或 只 是 ~-， 但 em - ( 破 折 号 ) 为 英语 印刷 样式 的 惯用 法 。 


国人 | 人 一 开始 仍 为 标 头 ; 


.SH SYNOPSIS 


接 下 来 有 时 会 是 漫长 的 标记 ， 最 常 出 现 钢 的 就 是 字体 信息 ， 
.B pathfind 


.B. \-N^\-al1. 
] . 


2B NN 
] 


.B \-\^\-help 





.B \-\^\-version 


选项 - ( 连 字 号 ) 以 \- 标记 ， 以 取得 负 号 的 排版 方式 ， 看 起 来 会 比 稍 短 的 原始 连 字号 
好 。 我 们 使 用 \^ 命令 ， 防 止 在 troff 的 输出 中 将 连 字 号 一 起 执行 。nroff 的 输出 下 ， 
空格 字符 会 消失 。 程 序 名 称 与 选项 被 设置 为 粗 体 字 。 字体 转 换 的 命令 , 像 .B, 可 使 用 到 
6 个 参数 (如 它们 包含 空格 , 请 引用 它 ), 然后 每 二 个 都 紧邻 着 排版 。 当 出 现 多 个 参数 时 ， 
意 即 所 有 字 间 需要 的 空格 都 应 该 明确 地 提供 。 在 此 , 方 括号 为 默认 的 roman 字体 ; 在 手 
册页 中 , 它们 界定 可 选用 的 值 。 虽 然 我 们 应 该 将 关闭 与 开启 的 方 括号 置 于 同一 行 , 但 我 
们 不 这 么 做 ; 因为 让 每 个 选项 可 以 在 三 个 连续 行 上 完成 可 便于 编辑 。 字体 配对 的 命令 虽 
可 立即 接 上 ， 让 它们 变 成 单 叭 一行， 但 它们 很 少 被 用 在 选项 列表 里 。 


除了 断 行 , troff 会 以 塞 满 段落 的 模式 排版 , 因此 所 有 东西 看 起 来 只 有 一 行 。 以 经 验 来 
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说 , 我 们 发 现 nroff 的 ASCII 输 出 会 在 --version 选 项 之 后 断 行 , 但 因为 我 们 是 在 段 
落 模 式 下 ,所 以 下 一 行 会 从 最 左边 缘 接 上 。 这 部 分 有 点 讨厌 ,所 以 我 们 只 有 在 套用 niroff 
时 置信 条 件 语 名 处理, 但 在 troff 里 就 不 需要 这 么 使 用 。 这 里 是 以 临时 缩 进 (temporary 
indentation) 命令 ( .ti) 加 上 参数 +9n 处 理 ， 即 缩 进 9 个 空格 符 ， 大约 是 命令 名 称 的 
宽度 加 上 等 宽 字 体 的 结尾 空格 符 : 


.if n .ti +9n 


命令 行 很 短 , 放 在 单一 排版 行 上 绰绰有余 , 所 以 对 troff 无 须 再 作 这 类 处 理 。 这 里 是 它 
大 致 的 样式 ， 但 我 们 隐藏 了 注释 ， 待 程序 加 入 了 更 多 的 选项 ， 我 们 再 添上 : 


.\" .if t .ti +\Mw'N\fBpathfind\ftP\ 'u 


缩 进 总 数 的 计算 很 复杂 ， 因 为 它 与 字体 成 比例 ， 且 我 们 无 法 得 知 命令 名 称 的 宽度 。 
\w' ... 'u 的 命令 是 在 计算 单 引 号 里 元 素 的 宽度 。 因 为 文本 被 设置 为 粗 体 字 、 所 以 我 们 
使 用 内 部 的 字体 包装 : \fB. . .\fP， 即 转换 为 粗 体 字 后 ， 再 转换 回 原先 的 字体 。 类 似 的 
字体 转换 命令 还 有 roman (\fR)、 斜 体 字 (\EI)， 与 等 宽 (\fCc) 字体 。C 表示 的 是 
Courier， 这 是 广 为 流 传 的 等 宽 字体 。 


接 下 来 的 命令 行 处 理 为 ; 


envvar [ files-or-patterns ] 


第 三 段落 描述 程序 的 选项 ,这 部 分 置 于 所 有 进一步 说 明之 前 ,是 因为 大 部 分 在 手册 页 里 ， 
它 是 最 常 读 取 的 段落 ， 


.sH OPTIONS 


部 分 选项 会 接 上 简短 的 备注 说 明 ， 所 以 接 下 来 处 理 这 个 : 


.B pathfind 

options can be prefixed with either one or two hyphens, and 
can be abbreviated to any unique prefix. Thus, 

.BR \-V, 

‘BR N=Vez 7， 

and 

.B \-\^\-version 

are equivalent. 


这 个 段落 展现 了 一 个 新 特色 : 成 对 字体 命令 ( .BR)， 这 里 设置 其 参数 是 粗 体 与 Troman 
字体 的 文本 之 间 没 有 任何 空格 。 类 似 的 命令 还 有 : .IR 与 .RI 斜体 -roman 配 对 ，. 工 B 
与 .BI 粗 体 一 斜体 配对 ， 当 然 还 有 已 经 介绍 过 的 .RB。 不 过 等 宽 字体 并 没有 类 似 的 用 
法 ， 因 为 它 是 后 来 才 加 入 的 〈 原 始 的 贝尔 实验 室 排版 程序 并 没有 这 样 的 字体 ) ， 你 必须 
改 用 \fc...\fP。 
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现在 该 是 切 开 段落 的 时 候 了 : ， 


“PP * 


在 nroff 的 输出 中 ,一空 行 与 一 段落 切 分 是 一 样 的 意思 , 但 troff 则 使 用 少数 的 垂直 
空格 作为 段落 切 分 。 在 段落 之 间 使 用 . PP 会 是 比较 好 的 形式 , 一 般 来 说 , 手册 页 输入 文 
件 绝 不 应 含有 任何 空 行 。 


接 下 来 的 段落 如 下 : 


To avoid confusion with options, if a filename begins witha . 
hyphen, it must be disguised by a leading absolute or 
relative directory path, e.g., 

.I /tmp/-foo 

or 

-IR ./-foo . 


现在 ,我 们 可 以 开始 进行 选项 描述 了 ,它们 的 标记 应 该 算是 用 在 手册 页 里 最 复杂 的 部 分 ， 
不 过 要 上 手 也 很 快 。 本 质 上 , 我 们 要 的 是 有 标签 的 (labeled) 缩 进 段 落 ; . 辅 以 段落 第 一 
行 最 左边 的 标签 设置 。 近 期 许多 标记 系统 均 以 项 目 列表 构建 此 部 分 :起 始 二 选项 一 列表 、 
起 始 一 选项 、 结 束 一 选项 、 起 始 一 选项 、 结 束 一 选项 等 等 ,然后 以 结束 一 选项 一 列表 作 
终结 。 不 过 ,手册 页 标记 不 全 然 这 么 做 ， 它 只 是 起 始 于 项 目 , 但 终结 于 下 一 个 段落 切 分 
( .PP) 或 部 分 标 头 (. SH)。 


起 始 项 目的 命令 ( .TP) 可 选择 性 地 设置 宽度 参数 , 设置 描述 性 段落 人 左边 缘 开 始 的 缩 
进 宽度 。 如 参数 省 略 ， 则 使 用 默认 的 缩 进 。 如 标签 长 度 大 于 缩 进 ， 则 新 的 行 立即 自 标签 
之 后 开始 ,段落 缩 进 仍 会 影响 接 下 来 的 .TP 命令 ,所 以 只 有 选项 列表 里 的 第 一 个 需要 它 。 
如 同 使 用 SYNOPSIS 部 分 里 封装 的 命令 行 的 缩 进 , 我 们 使 用 动态 的 缩 进 , 根据 最 长 选项 
名 称 的 长 度 而 定 。 由 于 我 们 有 好 几 个 选项 要 说 明 , 所 以 这 里 以 具有 一 连 上 串 破 折 号 的 注释 
行将 之 区 分 : 

i \W' \fB\-\^\ -version\fPp'ur3n 


接 在 .TP 命令 之 后 的 行 会 提供 项 目标 签 : 
.B \-all 
标签 之 后 接 的 是 选项 描述 : 
~ Search.all directories for each specified file, instead of 
reporting just the first instance of each found in the 


search path. 


如 果 这 个 描述 需要 切 分 段落 ， 则 使 用 缩 进 段落 (Indented Paragraph) 命令 (.IP) 取代 
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原来 的 段落 切 分 命令 ( .PP), 这 么 做 不 会 终结 此 列表 。 不 过 这 份 手 册页 很 短 , 我 们 用 不 
到 .IP。 J i 


接 下 来 的 选项 描述 就 不 再 需要 用 到 新 的 标记 了 ， 下 面 为 完整 的 选项 部 分 : 


和 
< 

.B \-? 

Same as 

-BR \-help . 
te 
TR 

.B \-help 

Display a brief help message on 

-IR stdout ， 


giving a usage description, and then terminate immediately 
with a success return code. 

A ----------------~~--~--~----~------------~-------~-----~----- 
.TP 

.B \-version 

Display the program version number and release date on 

.IR stdout ， 

and then terminate immediately with a Success return code. 


手册 页 第 4 段 为 程序 描述 。 这 部 分 的 长 度 由 你 决定 : Shell 能 执行 到 数 十 页 。 然 而 , 我 们 
期 待 它 是 简短 的 ， 因 为 手册 页 时 常会 被 查阅 。pathfinad 相当 简单 ， 只 要 三 段 就 能 描述 
完成 。 前 两 段 的 标记 是 我 们 已 经 知道 的 : 


A 
.SH DESCRIPTION . 

.B pathfind 

searches a colon-separated directory search path defined by 
the value of the environment variable, \fIenvvar\fP, for 
specified files or file patterns, reporting their full Path on 


.IR stdout ， 

or complaining \fIifilename: not found\fP on 

.I stderr 

if a file cannot be found anywhere in the search path. 
.PP 


.BR Pathfind 's 

exit status is 0 on success, and otherwise is the number of 
files that could not be found, possibly capped at the . 
exit code limit of 125. 

.PP 


最 后 一 小 部 分 是 必须 了 解 的 手册 页 标记 , 显示 在 最 后 一 段 。 在 此 , 我 们 要 以 计算 机 输入 
与 输出 的 等 宽 的 缩 进 方式 显示 ， 而 非 一 般 填 满 段落 的 方式 。 字 体 的 改变 ,是 类 似 我 们 先 
前 所 提 到 的 \fC...\fP。 当 它 出 现 于 行 起 始 时 ,我们 会 前 置 troff 的 no-op 命 令 \&， 
因为 如 果 接 下 来 的 内 文 一 开始 就 是 点 号 时 , 就 必须 使 用 no-op。 我们 要 计算 机 范例 是 缩 
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进 的 ， 所 以 将 缩 进 范 围 边界 以 Begin Right Shift ( .RS) 与 End Right Shift (.RE) 命令 
界定 。 并 且 , 我 们 还 需要 停止 填 满 整个 段落 ， 所 以 在 内 文 前 后 加 上 mo fill (.nf) 与 fill 
(.fi) 命令 : 


For example, 

.RS 

.nf 

\&\fCpathfind PATH ls\fP 
-£1 

.RE 

reports 

.RS 

nt 

\&\fC/bin/ls\fPp 

eR 

.RE 

on most UNIX systems, and 
.RS 

:DE 

\&\fCpathfind --all PATH gcc g++\fP 
和 

.RE 

reports 

-RS 

snf 
\&\fC/usr/local/bin/gcc 
/usr/bin/gcc 
/usr/local/gnat/bin/gcc 
/usr/local/bin/g++ 
/usr/bin/g++\fP 

a 

.RE 

on some systems. 

-PP 

Wildcard patterns also work: 
.RS 

.nf 

\&\fCpathfind --all PATH '??tex'\fP 
EE 

.RE 

reports 

.RS 

nF 
\&\fC/usr/local/bin/detex 
/usr/local/bin/dotex 
/usr/local/bin/latex 
/usr/bin/latex\fP 

es 

.RE 

on some systems. 


最 后 部 分 提供 其 他 相关 命令 的 交叉 引用 信息 ; 这 些 信 息 对 读者 可 能 相当 有 用 , 所 以 请 彻 
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底 执 行 。 它 的 格式 很 简单 : 只 是 一 个 以 字母 顺序 排列 的 单一 段落 ， 且 其 命令 名 称 为 粗 体 
并 辅 以 使 用 手册 部 分 编号 ， 各 命令 以 逗 点 隔 开 ， 最 后 以 点 号 结束 : 


3 
.SH "SEE ALSO" 

.BR find {1), 

.BR locate (1)， 

.BR slocate {1), 

.BR type (1), 

.BR whence {1), 

-BR where (1)， 

.BR whereis (1) . 

.Na ==========================================2====~========= 


我 们 几乎 已 经 介绍 完 所 有 常见 的 手册 页 标记 了 .唯一 的 重要 遗漏 便 是 Subsecrion Heading 
命令 (.SS)， 不 过 它 很 少见 ， 只 出 现在 较 宛 长 的 手册 页 文件 里 ,其 运行 与 . SH 命令 类 
似 ， 只 不 过 它 在 排版 输出 中 使 用 较 小 的 字体 。 来 自 nroff 的 ASCII 输出， 在 视觉 上 并 
无 差异 。 另 有 两 个 行内 命令 , 有 时 你 可 能 会 需要 用 到 .\ 1 .\1 . 表示 省 略 符号 ( 即 . . . ) ， 
与 \ (pu 表示 项 目标 记 〈 即 . ) ， 时 常 作 为 以 下 标签 段落 列表 中 的 标签 ， 像 这 样 : 


:TP \w’'\ (bu'u+2n 
\ {bu 


至 此 已 检查 过 手册 页 的 分 析 。 完整 的 troff 输 入 , 我 们 收集 在 例 A-1, 而 排版 后 的 输出 
(来 自 groff -man， 默认 产生 PostScript) 则 显示 于 图 A-1。 有 了 我 们 的 指南 ， 你 应 该 
可 以 开始 着 手 编写 程序 的 手册 页 了 。 


pathfind \(em find files in a directory path 

A ================================================~======= 
.SH SYNOPSIS 

.B pathfind 

[ 

-.B \-\^\-all 


.B \-\^\-help 
] 

[ 和 
.B \-\^\-version 
] 
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NAME 
pathfind 一 fnd files ina doD path 
SYNOPSIS 
pathfind[ --al ] [--? 11 help 1[--verson ] emvvar [ file(s) ] 
OPTIONS 
pathfind options can be prefixed with either one or two hyphens, and can be abbreviated to any unique pre- 
fx. Thus ~Y, ~ver, and ~~version are equivalent. 
To avoid confusion with options, if a filename begins with a hyphen, it rust be dispuised by a leading abso- 
lute or relative directory Path e.g., /omp/-foo or 4/-foo. 
-ell Search all directories for each specified file, insiead of reporting just the first instance of each 
found in the search path. 
-? Sare as -help. 
-help Display a brief help message on gidouil, giving a usage desctiption, and then Lerminate imme- 
出 ately with a success return code. 


-verdon Display the program version number and release date on sisout, and then terminate immedi- 
ately with a Success retim code. 


DESCRIPTION 
~ Pathfind searches acolop-geparaled directory search path defloed by the: value of the environment variable, 

“~ envvar, for specified' files, reporting their 名] path of siadow, or cormplaining flerame: nor fowid on suerr 
ifafile Cannot be found nywhere i in the gearch path. 


pathfind’s exifstahts is0Don sicecis, and otherwisei 这 the.mtnberof files that could rot te found, possibly “ 


capped at the exjt code limit of 125. 

‘ For exarnple, 

,Pathtind PATH 1s 
/bin/ls 

on most Unix Systems, and ' 
pathfind --all PRTH gee g++ 

reports 
/usr/local/bin/gee 
/usr/pin/gce 
/usr/local/gnat/bin/gce 
/usr/local/bin/g++ 
/usr/pin/g++ 

on some syste ms. 


:LBEE ALSO ; . 
find(1), locate(l 》 aoeateD) pet rt) where(l), wheresll). 


图 A-1: pathfind 排版 后 的 手册 页 


-if n .ti +9n 

.An .if t .ti +\w'\fBpathfind\fP\ 'Uu 

envvar [ files-or-patterns ] 

四 \ 和 
.SH OPTIONS 

.B pathfind 

options can be prefixed i either one or two hyphens, and 
can be abbreviated to any unique prefix. Thus, 

-BR \-v ， 

.BR \-ver ， 

and 

.B \-\^\-version 

are equivalent. 

To avoid confusion with options, if a filename begins with a 
hyphen, it must be disguised by a leading absolute or 
relative directory path, e.g., 

.I /tmp/-foo 

or 

.IR ./-foo . 
A 
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.TP \w'\fB\-\^\-version\fP'u+3n 

.:B \-all 

Search all directories for each specified file, instead of 
reporting just the first instance of each found in the 
search path. 


TN 
TP 

B \-? 

Same as 

.BR \-help . 

oN i i i i td i dd dd ad Di i nt i i i i i uid i dint i i did Gd. i i di 
:TP 

..B \-help 

Display a brief help message on 

.IR stdout ， 


giving a usage description, and then terminate immediately 
with a success return code. 

sR a dap ep ci iD Ee i Si Dh ah oil, “ih Wb 0 iD Sn i th ad eid Gi i i ad ah i im hid ed eh 0 Oh id i i OD i ea ,D0 Tid Cb bh a GD Dh, i i 
i 

.B \-version 

Display the program version number and release date on 

.IR stdout ， 

and then terminate immediately with a success return code. 


.SH DESCRIPTION 

.B pathfind 

searches a colon-separated directory search path defined by 
the value of the environment variable, \fIienvvar\fP, for 
specified files or file patterns, reporting their full path on 
.IR stdout ， 

or complaining \fIfilename: not found\fP on 

.I stderr 

if a file cannot be found anywhere in the search path. 

PP 

.BR pathfind 's 

exit status is 0 on success, and otherwise is the number of 
files that could not be found, possibly capped at the 
exit code limit of 125. 

.PP 

For example, 

.RS 

.nf 

\&\fCpathfind PATH ls\fP 

下 和 ic ,Ns a 和 

.RE 。 ee se Nk 
reports 

.RS 

int 

\&\fC/bin/1ls\fP 

区 

.RE 

on most UNIX systems, and 

.RS 

.nf 
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\&\fCpathfind --all PATH gcc g++\fP 
.£i 

.RE 

reports 

-RS . 

.nf 

\&\fC/usr/local/bin/gcce 
/usr/bin/gcc 

/usr/local/gnat /bin/gcc 
/usr/local/bin/g++ 
/usr/bin/g++\fP 

SE 

RE 

on some systems. 

“PP 

Wildcard patterns also work: 
.RS 

.nf 

\&\fCpathfind --all PATH '??tex’'\fP 
.£i 

.RE 

reports 

.RS 

.nf 
\&\fC/usr/local/bin/detex 
/usr/local/bin/dotex 
/usr/local/bin/latex 


/usr/bin/latex\fP 

Rt 

.RE 

on some systems. 

.Nu =====================>============~====================== 
.SH "SEE ALSO* 

.BR find (1), 


.BR locate {1), 

.BR slocate (1), 

.BR type (1), 

.BR whence (1), 

.BR where {1), a 
.BR whereis (1). 


手册 页 语法 检查 


检查 手册 页 的 格式 化 是 否 正确 ， 通 常 是 视觉 地 直接 看 ， 你 只 要 使 用 下 面 其 中 一 个 命令 ， 
打印 输出 即 可 : 


groff -man -Tps pathfind.man | lp 
troff -man -Tpost pathfind.man | /usr/lib/lp/postscript/dpost | lp 


或 者 使 用 这 样 的 命令 ， 在 屏幕 上 以 ASCII 或 是 排版 输出 : 
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nroff -man pathfind.man | col | more 
groff -man -Tascii pathfind.man | more 
groff -man -TX100 pathfind.man & | 


col 命令 会 处 理由 nroff 针对 平行 的 与 垂直 的 操作 所 产生 的 特殊 转 义 符 ， 不 过 groff 
的 输出 就 不 需要 用 到 col 了 。 
有 些 UNIX 系统 里 会 提供 简单 的 语法 检查 程序 ， checknr， 命 令 为 : 

checknr pathfind.man 
它 在 我 们 的 系统 上 不 会 产生 警告 信息 。 checknr 的 功能 是 找 出 不 符合 的 字体 ， 但 对 手册 
页 格式 的 了 解 不 多 。 


很 多 UNIX 系统 里 都 有 Geroff, 它 是 一 套 简 单 的 过 滤 程 序 , 用 以 去 除 troff 标记。 你 
可 以 像 这 样 执行 拼 字 检查 ， : 


deroff pathfind.man | spell 


为 了 避免 来 自 拼 字 检查 程序 对 于 troff 标 记 错误 的 抱 级 , 找 出 文件 里 难以 察觉 的 问题 还 
有 两 个 好 用 的 工具 ; 释 词 查找 (doubled-word finder, 注 8) 与 界定 符 平衡 检查 (delimiter- 


balance checker， 注 9)。 


手册 页 格式 转换 
转换 为 HTML、Texinfo、Info、XML 与 DVI 文件 很 简单 


man2html pathfind.man 
man2texi --batch pathfind.man 
makeinfo pathfind.texi 
makeinfo -~--xml pathfind.texi 
tex pathfind.texi 


碍 于 长 度 , 我 们 不 在 这 里 展现 .html、.texi、.info 与 .xml 文 件 的 输出 。 如 果 你 好 奇 
可 以 自己 做 做 看 ， 再 一 窥 其 内 容 ， 了 解 它 们 的 标记 格式 。 


[mn 
手册 页 的 安装 
一 直 以 来 ， 都 是 使 用 man 命令 ， 在 环境 变量 MANPATH 定 义 的 查找 路 径 下 之 各 个 子 目录 
中 一 一 通常 像 这 样 /usr/man:/usr/LIocal/man， 寻 找 手册 页 。 





注 8: htip:/www.math.utah.edu/pub/dw/. 


注 9: htip:/www.math.utah.edu/pub/chkdelim/, 
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有 些 近 期 的 man 版 本 只 是 假设 ， 在 程序 查找 路 径 PATH 中 的 每 个 目录 ， 可 以 放置 /../ 
man 字符 串 在 尾 端 ， 以 找 出 相对 应 的 手册 页 目录 ， 而 不 需 用 到 MANPATH。 


在 各 个 手册 页 目录 下 , 通常 是 寻找 前 置 man 与 cat ， 及 结尾 是 部 分 编号 的 成 对 子 目 录 。 
在 各 子 目录 内 , 文件 名 也 以 部 分 编号 作为 结尾 。 因 此 /usr/man/manl/1s.1 为 1s 命 令 
文件 的 troff 文 件 , 而 /usr/man/cat1/1s.1 则 保存 nroff 的 格式 化 输出 。man 使 用 
的 是 后 者 ， 当 它 存在 时 ， 可 避免 重新 执行 不 必要 的 格式 化 。 


当 有 部 分 厂商 采用 全 然 不 同 的 手册 页 树 状 结构 组 织 时 , 它们 的 man 实 例 仍 能 认得 过 去 存 
在 过 的 实现 方式 。 因 此 ， 大 部 分 GNU 软件 的 安装 将 可 执行 文件 置 于 $prefix/bin 中， 
并 将 手册 页 置 于 S$Sprefix/man/man1， 其 中 prefix 默 认为 /usr/local,， 且 在 各 类 系 
统 下 都 能 运行 得 当 。 


系统 管理 者 通常 会 在 固定 一 段 期 间 安排 执行 catman 或 makewhatis, 以 更 新 来 自 手册 页 
NAME 部 分 中 含有 单行 描述 的 文件 。 该 文件 是 给 apropos、man -k 与 whatis 命令 所 使 
用 的 , 目的 在 于 提供 手册 页 的 简单 索引 。 如 果 这 么 做 还 找 不 到 你 想 要 的 东西 , 就 只 能 求 
助 于 grep， 使 用 全 文 查找 了 。 
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如 果 想 要 有 效率 地 利用 计算 机 , 那么 对 文件 与 文件 系统 就 要 有 基本 的 了 解 。 本 附录 要 呈 
现 的 是 UNIX 文件 系统 重点 功能 的 概要 什么 是 文件 ? 文件 如 何 命名 、 包 括 了 哪些 东 
西 ? 如 何 将 它们 层级 式 地 珍 集 在 文件 系统 里 ?它们 有 哪些 特性 ? 


什么 是 文件 


简单 的 说 , 一 个 文件 就 是 存在 于 计算 机 系统 里 的 一 堆 数据 , 而 且 可 以 用 单一 实体 的 方式 
从 计算 机 程序 中 引用 。 文件 还 提供 让 进程 执行 可 以 继续 的 数据 存储 机 制 , 一 般 常用 于 重 
新 启动 计算 机 ( 注 1)。 


早期 计算 机 上 ， 文件 属于 计算 机 系统 外 部 的 东西 ， 多 半 是 放 在 礁 带 。 纸 带 人 tape) ， 
或 打 孔 卡 (punched cards) 上 。 ed 想 用 它 的 人 只 要 愿意 
把 一 大 倒 打 孔 卡 从 地 上 抱 起 来 就 可 以 。 1 


过 了 一 段 时 间 ， 磁 碟 就 开始 广泛 使 用 。 它们 的 物理 大 小 一 直 在 缩减 ， 内 整 只 手 辟 的 大 小 
缩 到 只 有 你 拇指 的 宽度 ， 不 过 它们 的 容量 却 是 一 直 在 长 大 ， 从 20 世 纪 50 年 代 年 中 期 的 
5MB ， 到 2004 年 的 400 000MB。 人 而 今 ， 能 使 用 
的 磁 碟 种 类 已 经 相当 多 了 。 





注 1; 部 分 系统 将 特殊 的 快速 文件 系统 置 放 在 中 央 的 随机 访问 内 存 . (random-access memory， 
RAM) 里 ,让 进程 之 间 得 以 共享 临时 文件 。 以 一 般 RAM 技术 来 说 ， 这 类 文件 系统 需 搭 
Cs 因为 它们 常会 在 系统 重启 后 重建 一 个 新 的 。 然 而 ， 有些 嵌 入 式 计算 机 系 

统 (embedded computer system) 使 用 非 挥 发 性 (nonvolatile) 的 RAM, 可 提供 长 期 的 
文件 系统 ， 
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光学 存储 设备 ， 例 如 CD-ROM 与 DVD， 已 经 是 廉价 又 高 容量 的 选择 了 : 20 世纪 90 年 
代 ，CD-ROM 大 举 取 代 软 盘 (flexible magnetic disk，floppy) 与 商用 软件 发 布 所 使 用 
的 磁带 。 


另外 可 以 用 的 还 有 非 挥发 性 的 固 杰 (solid-state) 存储 设备 ; 它们 最 后 应 该 会 取代 某 些 具 
有 移动 机 制 部 分 的 设备 , 后 者 会 因为 逐渐 耗损 而 失效 。 不 过 在 编写 本 书 的 时 候 , 成 本 上 
的 考虑 远大 于 它 的 替代 性 ， 它 们 不 但 容量 比较 小 ， 且 仅 能 重 写 几 次 而 已 。 


文件 如 何 命名 


早期 计算 机 操作 系统 无 法 命名 文件 : 文件 的 处 理 是 由 它们 的 所 有 者 提出 , 再 由 人 工 计 算 
机 操作 人 员 一 次 处 理 一 个 。 不久 马上 就 有 人 人 发现, 如果 文件 能 自动 地 处 理 就 更 好 了 : 文 
件 需 要 人 类 可 用 来 归 类 与 管理 的 名 称 ,， 而 计算 机 也 可 使 用 该 名 称 识别 它们 。 


当 我 们 可 以 指定 名 称 给 文件 后 , 马上 就 会 发 现 几 须 处 理 名 称 冲 突 的 问题 ,因为 很 可 能 出 
现 相 同名 称 指定 予 两 个 或 更 多 个 不 同文 件 的 情况 。 现 代 文 件 系统 解决 这 个 问题 的 方法 是 
将 独一无二 的 文件 名 逻辑 式 地 组 合 在 一 起 ， 称 为 目录 (directory) 或 文件 夹 (folder) 。 
这 部 分 在 本 附录 稍 后 “UNIX 层级 式 文件 系统 ”里 将 有 所 介绍 。 


在 文件 命名 时 , 使 用 的 是 从 主机 操作 系统 里 字符 集 取得 的 字符 。 早 期 的 计算 上 , 字符 集 
各 有 相当 大 的 差异 , :但 因为 必须 在 相 异 的 系统 间 交 换 数据 便 是 显 了 标准 化 的 需求 。 


1963 年 ，American Standards Association ( 注 2) 以 元 长 的 American Standard Code 
for Information Interchange 名 称 , .提出 7 位 字符 集 ， 之 后 即 以 其 初始 字母 ASCIIT (发 
音 为 ask-ee) 广 为 流传 。7 个 位 允许 呈现 27 = 128 个 不 同 的 字符 ， 已 经 足以 处 理 拉丁 字 
母 的 大 写 与 小 写 、 数字 与 一 些 特殊 符号 及 标点 符号 字符 , 包括 空格 以 及 剩 下 的 33 个 控制 
字符 。 后 者 未 指定 可 打印 的 图 形 表现 方式 。 它 们 之 中 , 有 些 是 用 作 将 行 加 以 标示 与 分 页 ， 
但 大 部 分 是 用 于 特定 用 途 。 ,几乎 所 有 计算 机 系统 都 已 支持 ASCII。 想 了 解 ASCII 字 符 集 ， 


请 使 用 命令 man ascii。 


不 过 , 这 么 多 的 世界 语言 ， 使 用 ASCI[ 表 示 是 不 够 的 ， 它 能 贮藏 的 字符 太 少 了 。 因 为 大 


部 分 的 系统 现在 都 使 用 8 位 字 节 ， 作 为 最 小 的 定 址 存储 单位 ， 它 允许 2 = 256 个 不 同 字 


符 。 系统 设计 师 也 立即 将 该 256 元 素 集 合 的 上 半 部 分 拿 来 使 用 , 将 ASCII 留 在 下 半 部 分 。 
可 异 的 是 他 们 未 遵循 国际 标准 , 所 以 出 现 了 几 百 种 不 同 的 各 种 字符 指定 方式 ; 有 时 它们 
会 被 称 为 内 码 页 (code page)。 即使 单一 128 个 额外 字符 集 的 空 s 间 ， 对 完整 的 欧洲 语系 





注 2: 之 后 重新 命名 为 American National Standards Institute (ANS1)。 


www.TopSage.com 


文件 与 文件 系统 451 


仍 嫌 不 足 ， 因 此 International Organization for Standardization (1SO) 便 开发 了 一 系列 
代码 页 (或 称 内 码 页 ): ISO 8859-1 ( 注 3)、ISO 8859-2:. ISO.8859-3 等 。 


20 世 纪 90 年 代 ， 共同 开发 的 单一 万 国字 符 集 Unicode ( 注 4) 开始 运作 。 这 最 终 需 要 每 
个 字符 大 约 有 21 个 位 ， 但 许多 操作 系统 下 的 现行 实例 只 使 用 到 16 个 位 。UNIX 系统 使 
用 一 个 可 变动 的 位 宽度 编码 : UTF-8 ( 注 5)， 人 允许 已 存在 的 ASCII 文件 成 为 有 效 的 
Unicode 文件 。 


会 讨论 字符 集 上 是 因为 : 除了 独特 的 IBM 大 型 计算 机 使 用 EBCDIC ( 注 6) 字符 集 外 ， 
所 有 现行 系统 都 将 ASCII 字 符 集 纳入 128 以 下 的 位 置 。 因 此 将 文件 名 限制 在 ASCII 子 集 ， 
我 们 就 可 以 让 这 个 名 称 通用 于 所 有 地 方 了 。 现 在 的 Internet 与 World Wide Web 便 证 明 ， 
了 文件 可 以 在 不 同 的 系统 间 进行 交换 。 


原始 的 UNIX 文 件 系统 设计 者 , 决定 这 256 个 元 素 集合 都 可 用 于 文件 名 ， 但 有 两 个 例外 : 
一 个 是 控制 字符 NUL (此 字符 的 所 有 位 都 为 零 )， 这 是 许多 程序 语言 里 ， 用 来 表示 字符 
串 结尾 的 字符 ; 另 一 个 则 是 斜 杠 (/) 字符 , 这 是 用 来 保留 重要 用 途 的 字符 , 稍 后 会 介绍 。 


此 选择 是 相当 宽容 ， 不 过 我 们 强烈 建议 你 再 加 强 进一步 的 限制 ， 理 由 如 下 : 

。 ”因为 文件 名 是 人 们 也 要 使 用 , 所 以 它 的 名 称 必须 是 可 视 字符 :看 不 到 的 控制 字符 不 
适合 。 

。 ”文件 名 不 单单 是 人 类 要 用 ,计算 机 也 要 用 : 人们 可 从 上 下 文 认 出 作为 文件 名 的 字符 
字符 串 ， 但 计算 机 程序 需要 更 精确 的 规则 。 


。 ”在 文件 名 里 使 用 Shell 的 meta 字 符 (也 就 是 大 部 分 的 标点 符号 ) 必须 特殊 处 理 ， 
此 最 好 都 避免 。 


。 ”初始 的 连 字 号 会 让 文件 名 看 起 来 像 UNIX 命令 的 选项 。 


注 3: 可 到 http://www.iso. ch/iso/en/CatalogueListPaye. CatalogueList 查 找 ISO Standards 目 录 。 


注 4: 《The Unicode Standard, Version 4.0》， 由 Addison-Wesley 于 2003 年 出 版 ,ISBN: 0-321- 
18578-1 。 


注 5: 见 RFC 2279: UTF-8, Ka transformation format of ISO 10646), 见 ftp://ftp.internic.net/ 
rfc/ rfc2279.txt, 


注 6: EBCDIC = Extended Binary-Coded Decimal Interchange Code, 发 音 为 ep-see-dick 或 eb- 
kih-dick。 这 是 一 套 在 1964 年 首次 出 现在 IBM System/360 系统 上 的 8 位 字符 ， 包 括 了 
旧式 6 位 的 IBM BCD 集合 作为 子 集 。System/360 及 其 后 来 的 产物 都 是 应 用 在 计算 机 上 
最 久 的 架构 ,许多 全 球 企业 都 使 用 它们 。 IBM 也 支持 使 用 ASCII 字 和 罕 集 的 GNU/Linux 实 
例 ， 见 htip://www.ibm. com/linux/, 
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部 分 非 UNIX 文件 系统 允许 在 文件 名 里 使 用 大 、 小 写字 符 , 但 在 比较 文件 时 却 会 忽略 大 
小 写 的 不 同 。UNIX 原始 的 文件 系统 则 不 是 这 样 ， 对 它们 来 说 : readme、Readme， 与 
README 是 三 个 不 同 的 文件 名 ( 注 7)。 


UNIX 文 件 名 惯用 的 方式 是 全 为 小 写 , 因为 它 好 读 、 好 输入 。 某 些 常见 的 重要 文件 名 , 例 
如 AUTHORS、BUGS、ChangeLog、CDPYRIGHT、INTALL、LICENSE、Makefile、 NEWS、 
README, 与 TODO 则 惯用 大 写 或 混用 大 小 写 。 因 为 大 写字 母 在 ASCII 字 符 集 里 位 于 小 写 
字母 之 前 , 因此 这 些 文件 在 进行 目录 列表 时 , 会 一 开始 就 出 现 ， 而 更 容易 被 看 到 。 然而 ， 
以 现行 UNIX 系统 而 言 ， 排 序 顺序 视 locale 而 定 ， 所 以 将 环境 变量 LC. -ALL 设 为 c， 即 
可 得 到 传统 ASCII 的 排序 方式 。 


为 了 在 其 他 操作 系统 上 也 能 使 用 ， 最 好 是 将 文件 名 限制 在 拉 耳 字母 的 室 符 、 数 字 、 连 字 
号 、 下 划 线 及 单一 个 点 号 。 


文件 名 可 以 多 长 ? 这 根据 文件 系统 而 定 ,而 有 些 软件 本 身 的 缓冲 区 有 固定 大 小 , 限制 了 
所 能 处 理 的 最 大 文件 名 。 早 期 UNIX 系 统 有 :14 个 字符 的 限制 。 但 从 20 世 纪 80 年 代 中 期 ， 
UNIX 系统 的 设计 便 普遍 允许 使 用 到 255 个 字符 。POSIX 定义 了 NAME_MAX 常数 为 该 长 
度 , 不 包含 终 结 的 NUL 字符 ， 且 要 求 最 小 值 为 14。 X/Open Portability Guide 要 求 最 小 
值 为 255。 你 可 以 使 用 getconf ( 注 8) 命令 找 出 你 系统 的 限制 。 人 
系统 里 会 看 到 的 报告 ; 

S getconf NAME MAX . ， ”在 当前 的 文件 系统 下 ， 文 件 名 可 以 多 长 . ? 

255 | . 
文件 位 置 的 完整 规格 有 另 一 个 且 更 大 的 限制 ,我 们 会 在 本 附录 “文件 系统 架构 ”部 分 提 
及 。 





警告 我们 在 这 里 ,对 使 用 空格 字符 于 文件 名 中 的 做 法 提出 警告 。 有 些 窗口 式 的 桌面 环境 操作 系 
统 ,， 其 文件 名 是 从 滚动 菜单 中 被 选 定 ， 或 输入 到 对 话 方 块 中 ,这 让 它们 的 用 户 会 以 为 在 文 
件 名 里 使 用 空格 字符 是 没 问题 的 。 其 实 不 是 ! 文 件 名 不 单 只 是 在 这 个 小 小 的 对 话 框 里 被 用 
到 ,唯一 明知 的 做 法 应 是 在 有 限 的 字符 集 里 选择 字符 ， 作 为 你 的 文件 名 。 特别 是 UNIX 
Shell， 它 的 命令 是 可 以 使 用 空格 字符 加 以 分 隔 的 。 


因为 文件 名 里 可 能 出 现 空白 或 其 他 特殊 字符 , 在 Shell 脚 本 里 ， 你 应 该 要 记得 将 任何 可 能 全 
有 文件 名 的 Shell 变量 的 计算 总 是 以 引号 括 起 。 








注 7: Mac OS X 里 支持 的 旧式 HFS 式 文 件 系统 会 视 大 小 写 为 相同 ， 所 以 将 软件 移植 到 该 系统 
上 ， 可 能 会 出 现 意 料 之 外 的 情况 。 Mac OS X 也 支持 一 般 视 大 小 等 为 不 同 的 UNIX 文件 
”系统 。 
注 8: 几乎 所 有 UNIX 系统 里 都 有 , 除了 Mac OS X 与 FreeBSD (5.0 前 的 版 本 ) 外 。getconf 
的 源 代 码 可 以 在 glibc 的 发 布 包 里 找到 : fip://ftp.gnu.org/gnu/glibc, 
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UNIX 的 文件 里 有 什么 


UNIX 另 一 个 了 不 起 的 成 就， 就 是 以 简单 的 现 点 来 看 文件 : UNIX 的 文件 ， 不 过 是 零 或 
多 个 不 知名 的 数据 字 节 集结 吉 而 成 的 流 。 


大 部 分 的 其 他 操作 系统 将 文件 看 成 两 种 : 二 进 制 与 纯 文本 的 数据 、 计 数 长 度 《counted- 
length) 与 固定 长 度 与 可 变 长 度 的 记录 、 索引 与 随机 与 质 序 的 访问 等 等 。 这 马上 就 成 
了 一 种 梦 厦 : 简单 的 复制 文件 操作 ,可 能 就 因为 文件 类 型 的 不 同 而 必须 以 不 同 的 方式 完 
成 ， 且 必须 所 有 软件 都 能 处 理 数 种 文件 ， 复 杂 度 会 更 高 。 


UNIX 的 文件 复制 其 实 没什么 : 


try~to-get-a-byte 
while (have-~a-byte). 
f 
put-a-byte 
try-to-get-a-byte 
} . i 5 
这 种 循环 的 排序 可 被 实例 在 许多 程序 语言 中 ， 它 最 棒 的 地 方 是 在 : 程序 无 须知 道 数据 从 
哪里 来 ， 它 可 以 从 文件 、 磁 带 设备 、 管 道 、 网 络 连接 、 内 核 数据 结构 ， 或 是 从 任何 未 来 


设计 者 所 设计 的 数据 来 源 而 来 。 


你 会 说 ， 那 我 需要 一 个 特殊 文件 ， 文件 尾 端 有 一 个 具 指针 的 目录 指向 稍 早 的 数据 ， 且 该 
数据 本 身 是 加 密 的 。 在 UNIX 中 的 答案 是 : 没 问题 ! 你 只 要 让 应 用 程序 了 解 你 这 个 完美 
的 文件 格式 ， 完全 不 会 带 4 给 文件 系统 或 操作 系统 该 复杂 度 。 它们 不 必 了 解 这 些 细节 。 


然而 ， UNIX 仍 对 允许 的 文件 稍 作 区 分 。 人 为 建立 的 文件 ， 通常 含有 数 行文 本 ， 以 分 行 
字符 作为 结尾 , 且 不 会 出 现 无 法 打印 的 ASCII 控 制 字符 。 这 样 的 文件 可 以 被 编辑 、 显 示 
于 屏幕 上 、 被 打印 、 以 电子 邮件 传送 ， 还 能 通过 网 络 传递 到 其 他 计算 机 系统 上 ,其 数据 
也 保证 是 被 维护 的 很 完整 。 用 于 处 理 文本 文件 的 程序 , 包括 我 们 在 本 书 讨论 的 诸多 软件 
”工具 ， 其 设计 上 是 使 用 大 的 但 大 小 固定 的 缓冲 区 来 保存 文本 行 。 如 果 给 它们 过 长 的 行 ， 
或 具有 无 法 打印 的 字符 的 输入 文件 , 则 它们 可 能 会 出 现 无 法 预知 的 行为 。 处 理 文本 文件 
时， 建议 你 将 行 的 长 度 限 制 在 读 取 时 较 舒 适 的 大 小 ， 例 如 50 到 70 个 字符 。 


文本 文件 以 ASCII linefeed (LF) 字符 ,在 ASCII 表 里 为 十 进 制 值 10， 表 示 行 的 界线 。 
此 字符 指 的 是 换行 字符 。 许 多 程序 语言 在 字符 字符 串 里 ， 以 \n 表示 此 字符 。 这 种 表示 
方式 , 比 其 他 系统 的 一 组 carriage- return/linefeed 字 符 的 表示 方式 简单 多 了 。 在 C 与 C++ 
程序 语言 里 的 广泛 用 法 以 及 后 来 开发 的 一 些 语言 ,都 以 单一 换行 字符 作为 文本 文件 里 每 
个 行 的 终结 ， 这 是 由 于 它们 有 很 多 都 是 源 自 于 UNIX。 
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在 共享 文件 系统 的 混用 操作 系统 环境 下 ,常会 需要 为 使 用 不 同行 结尾 符 的 文本 文件 作 转 
换 。dosmacux 包 ( 注 9) 提供 了 一 组 方便 的 工具 来 做 这 件 事 , 同时 保留 了 文件 的 时 间 戳 。 


UNIX 里 所 有 的 其 他 文件 可 被 认为 是 二 进 制 文件 ; 每 一 个 包含 在 其 中 的 字 节 ， 都 有 256 
种 可 能 的 值 。 因 此 ， 文 本 文件 可 以 算是 二 进 制 文件 的 子 集 。 


不 同 于 某 些 操作 系统 的 是 ， 没 有 字符 会 被 抢夺 以 表示 end-of-file; UNIX 文件 系统 单纯 
地 在 文件 中 保留 字 节 数 的 计数 。 


尝试 读 取 超 越 文件 字 节 计数 时 , 则 返回 一 个 end-of-file 的 上 暗示, 所 以 它 不 可 能 看 到 任何 
磁盘 块 之 前 的 内 容 。 


有 些 操作 系统 禁用 空 文件 ， 但 UNIX 不 这 么 做 。 有 时 ， 它 表示 的 只 是 一 个 文件 的 存在 ， 
重点 不 在 它 的 内 容 。 例 如 时 间 惟 、 文 件 锁定 ， 以 及 THIS-PROGRAM-IS-OBSOLETE 这 样 
的 警告 ， 都 是 有 用 的 空 文件 范例 。 


UNIX 将 文件 视 为 字 节 流 的 想法 ， 鼓 励 操作 系统 的 设计 者 ， 实 现 出 看 起 来 像 文 件 但 非 伟 
统 式 文 件 想 法 的 数据 。 许 多 UNIX 版 本 ， 实 现 一 个 进程 信息 虚拟 文件 系统 
(pseudofilesystem) : 只 要 输入 man proc 就 可 以 知道 你 系统 提供 的 有 哪些 。 我 们 在 13.7 
节 里 已 做 过 详细 的 讨论 。 在 /proc 树 状 结构 下 的 文件 ， 并 未 真实 存在 于 大 型 存储 设备 
下 , 它 只 是 提供 察看 进程 表格 及 执行 中 进程 的 内 存 空间 , 或 了 解 操作 系统 内 部 信息 ( 例 
如 处 理 器 、 网 络 、 内 存 与 磁盘 系统 ) 的 详细 数据 的 方式 。 


以 我 们 写本 书 时 所 使 用 的 系统 为 例 ， 我 们 可 以 找到 与 存储 设备 相关 的 细节 ， 类 似 这 样 
(命令 参数 上 ， 斜 杠 表示 的 意义 将 在 下 节 讨 论 ) : 
$ cat /proc/scsi/scsi 显示 磁盘 设备 信息 
Attached devices: 
Host: scsi0 Channel: 00 Id: 00 Lun: 00 
Vendor: IBM Model: DMVS18V Rev: 0077 
Type: Direct-Access ANSI SCSI revision: ‘03. 
Host: scsil Channel: 00 Id: 01 Lun: 00 
Vendor: TOSHIBA Model: CD-ROM XM-6401TA Rev: 1009 
Type: CD-ROM ANSI SCSI revision: 02 


UNIX 层级 式 文件 系统 


大 量 的 文件 就 可 能 有 文件 名 冲突 的 风险 , 如果 要 所 有 名 称 都 独一无二 , 管理 上 也 相当 困 
难 。UNIX 处 理 的 方式 ， 便 是 将 文件 组 织 在 目录 (direciory) 下 : 每 个 目录 形成 它 自己 


注 9: htip://www.math.utah.edu/pub/dosmacux/. 
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的 名 称 空间 ,独立 于 所 有 其 他 的 目录 。 目 录 也 可 提供 默认 属性 给 文件 ,这 个 主题 我 们 将 
在 稍 后 的 “文件 所 有 权 与 权限 ”部 分 做 简短 介绍 。 


文件 系统 架构 


目录 可 以 峰 套 配置 为 任意 深度 ;使 得 UNIX 文件 系统 形成 树 状 结构 。UNIX 在 此 不 使 用 
文件 夹 (folder) 是 因为 纸 本 文件 的 文件 夹 无 法 谋 套 配置 。 文 件 系统 目录 结构 的 本 源 为 
根 目录 (root directory), 它 有 一 个 特殊 而 简单 的 名 称 ; / (ASCII 的 斜 杠 )。/myfile 指 
的 就 是 根 目 录 下 ， 叫 作 myfile 的 文件 名 称 。 斜 本 还 有 另 一 个 目的 : 用 来 界定 名 称 ， 以 
记录 目录 的 骸 套 架构 。 图 B-1 呈现 的 是 文件 系统 顶层 架构 的 一 小 部 分 。 





B-1: 文件 系统 目录 结构 


UNIX 目录 下 可 包括 任意 数目 的 文件 。 不 过 ， 大 部 分 现行 UNIX 文件 系统 的 设计 与 文件 
系统 程序 界面 ,都 假定 目录 是 被 连续 地 查找 。 因 此 在 大 型 目录 下 寻找 文件 的 时 间 , 便 与 
目录 里 的 文件 数 成 比例 。 当 文件 超过 百 个 ， 最 好 以 子 目 录 重新 组 织 。 


在 幅 套 式 目录 的 完整 列表 下 ,要 到 达 一 文件 , 是 以 路 径 名 称 (pathname) 或 称 为 路 径 的 
方式 引用 。 它 有 时 会 包含 文件 名 本 身 ， 有 了 时 则 不 会 , 视 当 时 的 情况 而 定 。 文件 名 的 完整 
路 径 ， 包含 名 称 本 身 ， 能 有 多 长 ? 一 直 以 来 ，UNIX 的 文件 都 未 提供 答案 , 但 POSIX 定 
义 PATH_MAX 常 数 来 限制 其 长 度 , 包含 终结 的 NUL 字 符 , 要 求 最 大 值 为 256, 但 X/Open 
Portability Guide 则 要 求 到 1024。 你 可 以 使 用 getconf 命 令 查 询 你 系统 里 的 限制 , 以 我 
们 的 系统 为 例 : 


$ getconf PATH MAX . 在 当前 文件 系统 下 ， 路 径 名 称 的 最 大 长 度 为 何 ? 
1023 


其 他 我 们 测试 过 的 UNIX 系统 ， 也 有 报告 1024 或 4095 的 。 
C 程 序 语言 的 ISO 标 准 称 此 值 为 FILENAME_MAX, 且 它 必须 定义 在 标准 标 头 文件 staio.h 
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里 。 我 们 检查 过 许多 UNIX 版 本 ， 还 发 现 235. 1024， 与 ,4095 的 值 。Hewlett=Packard 
HP-UX 的 10.20 与 11.23 的 值 只 有 14， 但 它们 的 getconf 报告 则 为 1023 与 1024 . 


因为 UNIX 系统 支持 多 个 文件 系统 , 文件 名 长 度 也 为 文件 系统 的 特性 之 一 ， 与 操作 系统 
无 关 , 所 以 编译 期 常数 所 定义 的 这 些 限制 是 没有 意义 的 。 高 级 语言 的 程序 员 多 半 被 建议 
使 用 pathconf () 或 tpathconf () 函数 库 调用 , 以 取得 这 些 限制 值 ; 它们 需要 传递 一 个 
路 径 名 称 , 或 是 一 个 打开 的 文件 描述 代码 , 使 得 特定 的 文件 系统 可 以 被 识别 。 也 就 是 为 
什么 我 们 在 先前 的 例子 里 ， 传 递 当 前 的 目录 (点 号 ) 给 getconf。 


UNIX 目录 本 身 就 是 文件 ，5 只 不 过 它 拥有 特殊 属性 且 限制 性 访问 。 所 有 UNIX 系统 都 包 
括 顶 层 目录 bin, 保存 (时 常 是 二 进 制 ) 可 执行 程序 ， 包括 很 多 在 本 书 中 使 用 过 的 那些 。 
这 个 目录 的 完整 路 径 名 称 为 /bin， 它 Ee 


另 一 个 普遍 性 顶层 目录 为 usr， 不 过 它 一 - 定 含有 其 他 目录 ， /usr/bin 就 是 其 中 一 个 。 
它 和 /bin 是 不 同 的 ， 本 附录 稍 后 的 “文件 系统 实现 概况 ”会 说 明 ， 如 何 让 两 个 bin 目 
录 看 起 来 一 样 ( 注 10)。 : 


所 有 的 UNIX 目录 ,就 算是 空 的 ， 也 至 少 包 括 两 个 特殊 目录 ， - (点 号 ) 与 . . (点 号 点 
号 )。 第 一 个 指 的 是 目录 本 身 : 就 是 我 们 先前 在 getconf 范例 里 用 到 的 那个; 第 二 个 指 
的 则 是 父 目录 。 因 此 ， 在 /usr/bin 下 ， . 意 即 为 /usr， 而 ../1ib/1lipc.a 意 思 就 
是 /usr/1ib/1libc.a 一 一 这 是 C 语 言 行 期 程序 库存 放 的 惯例 位 置 。 


根 目录 的 父 目 录 就 是 自己 ， 所 以 1/、/.…、/../…、/././. 都 是 一 样 的 。 


路 径 结尾 如 果 以 斜 杠 结束 ， 则 它 是 一 个 目录 。 如 果 最 后 字符 非 斜 杠 ， 那么 最 后 一 个 组 成 
部 分 是 目录 还 是 其 他 类 型 的 文件 ， 则 只 能 咨询 文件 系统 而 得 知 。 


POSIX 要 求 路 径 里 连续 的 斜 杠 被 视 为 单一 斜 杠 。 这 要 求 在 我 们 参考 到 最 早期 的 UNIX 文 
件 里 并 未 明白 指定 ， 但 自 20 世纪.70 年 代 中 期 起 ， Version 6 源 代 码 一 开始 ， 即 完成 此 和 斜 
杠 减少 ( 注 11)。 因此 : /tmp/x、 /tmp//x, 与 //tmp/ /x 都 指 同一 -个 文件 。 





注 10: DEC/Compaq/Hewlett-Packard OSF/1 (Tru64). IBM AIX、SGI IRIX, 5 Sun Solaris 
都 做 得 到 。Apple Mac OS X、BSD 系统 、GNU/Linux， 与 Hewlett-Packard HP-UX 则 
不 能 做 到 。 

注 11: 见 John Lion 的 书 : 《Lions’ Commentary on UNIX 6th Edition, with Source Code》， 
1996 年 由 Peer-to-Peer Commnuinications 出 版 ,ISBN 1-37398-013-7。 此 修正 出 现在 kernel . 
行 7535 (sheet 75) ， 注 释 说 明 于 p.19-2 的 “Mnultiple slashes are 全 “过 和 
序 码 以 if 取代 while， 则 此 减少 不 会 发 生 。 
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在 这 本 书 里 ,有 很 多 的 注脚 提供 World Wide Web 的 来 源 位 置 (URL), 其 语法 是 以 UNIX 
的 路 径 名 称 所 形成 。URL 前 置 通信 协议 的 名 称 与 主机 名 称 , 例如 ; proto://host, 指 
的 即 为 UNIX 风格 的 路 径 名 称 ， 置 于 主机 的 网 页 目录 树 下 。 网 页 服务 器 需要 这 些 信息 ， 
找到 它们 在 文件 系统 里 的 适当 位 置 。URL 自 20 世纪 90 年 代 晚 期 开始 广泛 使 用 ， 使 得 
UNIX 路 径 名 称 为 人 们 所 熟悉 。 


层级 式 文件 系统 


如 果 斜 杠 为 要 目录, 则 每 个 文件 系统 里 只 会 有 一 个 , 那么 UNIX 要 如 何 支持 多 个 文件 系 
统 , 但 又 可 以 避免 根 目 录 名 称 冲突 的 情况 呢 ? 答案 很 简单 :UNIX 人 允许 将 某 个 文件 系统 ， 
逻辑 性 地 置 于 另 一 个 文件 系统 内 一 个 已 存在 的 任意 目录 之 上 。 该 操作 称 为 加 载 
(mounting) ， 相 关 命令 为 mount 与 umount: 分 别 为 加 载 与 印 载 文 件 系统 。 


当 另 一 个 操作 系统 加 载 在 一 个 目录 之 上 时 ， 该 目录 先前 的 内 容 都 无 法 看 见 也 无 法 访问 ， 
只 有 在 印 载 以 后 它们 才 会 再 出 现 。 


文件 系统 加 载 会 让 人 觉得 单一 文件 系统 树 会 无 限 长 大 的 幻觉 ,只 需 通过 简单 地 加 入 更 多 
或 更 大 的 存储 设备 即 可 。 正 规 的 文件 名 称 惯例 /a/b/c/d/.… 即 指出 对 用 户 与 软件 而 言 
无 须 关心 其 设备 为 何 ， 这 点 不 同 于 其 他 操作 系统 ; 后 者 会 将 设备 名 称 放置 在 路 径 名 称 之 
中 。 


完成 加 载 命令 需 要 充分 的 信息 ， 因此 系统 管理 员 将 这 些 细节 存储 在 一 个 特殊 文件 里 ， 通 
常 是 /etc/fstab 或 /etc/vfstab, 视 UNIX 的 版 本 而 定 。 该 文件 一 如 大 部 分 的 UNIX 
组 态 文件 : 都 为 一 般 文 本 文件 ， 其 格式 可 参考 手册 页 fstab(4 或 5) 或 vfstab(4)。 


当 共享 的 磁盘 是 唯一 可 用 的 文件 系统 媒体 时 ,加载 与 卸载 便 需要 特殊 权限 , 通常 只 有 系 
统管 理 员 可 以 做 这 件 事 。 不 过 ， 对 一 些 个 人 拥有 的 媒体 ， 例 如 软盘 、 光 盘 或 DVD, 桌 上 
计算 机 的 用 户 需要 能 够 自己 做 这 件 事 。 许 多 UNIX 系统 进行 了 功能 的 扩充 ， 所 以 有 某 些 
设备 也 人 允许 非特 权 用 户 进行 加 载 与 印 载 。 这 里 是 自 GNU/Linux 系统 下 使 用 的 例子 : 


$ grep owner /etc/fetab | sort | .哪些 设备 允许 用 户 加 载 ? 

/dev/cdrom /mnt /cdrom iso9660 noauto,owner,kudzu,ro 0 0 

/dev/fd0 /mnty/VELIoppy auto noauto,owner,kudzu 0 0 

/dev/sdb4 /mt/zip100.0 auto noauto, owner, kudzu 0 0 
这 里 设置 让 用 户 可 以 使 用 CD-ROM、 软 盘 ， 与 Iomega Zip， 使 用 方式 如 下 : 

mount /mntycarom ，” 使 光驱 呈 可 用 状态 

cd /mnt/Vcdrom 改变 到 它 的 顶层 目录 

1s 。 列 出 其 文件 

cd i 改变 根 目录 

umount /mnt/cdrom 四 释放 光驱 
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mount 命令 不 使 用 参数 与 特殊 权限 时 : 只 会 简单 地 报告 所 有 当前 加 载 的 文件 系统 。 下 列 
为 狼 立 的 网 页 服务 器 范例 : 

$ mount | sort 显示 已 加 载 的 文件 系统 列表 ， 并 排序 它 

/dev/sda2 on /boot type ext3 {rw) 

/dev/sda3 on /export type ext3 {rw) 

/dev/sda5 on / type ext3 {rw) 

/dev/sda6 on /ww type ext3 (rw) 

/dev/sda8 on /tmp type ext3 {rw) 

/dev/sda9 on /var type ext3 {rw) 

none on /dev/pts type devpts {rw,gid=5,mode=620}) 

none on /dev/shm type tmpfs (rw) 

none on /nue/proc type proc (rw) 

none on /proc/sys/fs/binfmt_misc type binfmt _ misc (rw) 

none on /proc type proc (rw) 


这 里 显示 ， 根 文件 系统 加 载 在 磁盘 设备 /dev/sda5 下 。 其 他 文件 系统 则 分 别 加 载 为 
/boot、 /export 等 等 。 


系统 管理 员 可 使 用 来 下 命令 印 载 /ww 树 : 
# umeunt /ww 在 此 ，# 为 根 握 示 符号 


如 果 /ww 目录 下 有 任何 文件 正在 使 用 , 则 此 命令 的 执行 结果 会 失败 。 你 可 以 使 用 lsof 
(list-open-files) 命令 〈 注 12) ， 以 追踪 正 被 防止 印 载 的 进程 。 


文件 系统 实现 概况 


文件 系统 实现 的 细节 很 有 趣 , 但 也 太 复 杂 ， 目 超出 这 本 书 的 范畴 。 我 们 建议 你 参考 更 好 
的 书 , 例如 《The Design and Implementation of the 4.4BSD Operating System》( 注 3) 
与 《UNIX Internals: The New Frontiers》 人 14) ， 进 一 步 了 解 。 


从 较 高 层 的 观点 来 看 文件 系统 实现 其 实 是 相当 有 帮助 的 , 因为 这 么 做 可 以 从 用 户 的 角度 
去 看 UNIX 的 文件 系统 。 文件 系 统 建立 时 ; 一 个 管理 员 指定 的 固定 大 小 表格 ( 注 15) 也 
随 之 建立 , 以 保存 文件 系统 中 与 文件 相关 的 信息 。 每 个 文件 都 会 与 此 表格 的 一 个 实现 产 
生 相关 ， 每 个 实现 都 为 一 个 文件 系统 数据 结构 ， 被 称 为 inode (index node 的 缩写 ， 发 





注 12: ftp:/vic.cc.purdue.edu/pub/tools/UNIX/Isof/。 其 他 UNIX 版 本 下 的 替代 命令 可 使 用 fstat 
与 fuser。 


注 13: 作者 Marshall Kirk McKusick, Keith Bostic, Michael J. Karels, 与 John S. Quarterman, 
于 1996 年 由 Addison- -Wesley 出 版 ， ISBN 0-201-54979-4。 


注 14: 作者 Uresh Vahalia， 于 1996 年 由 Prentic-Hall 出 版 ，ISBN 0-13-101908-2。 
注 15; 部 分 高 级 文件 系统 设计 允许 根据 需要 加 大 表格 。 
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音 为 eye node)。indoe 的 内 容 视 特定 的 文件 系统 设计 而 定 ， 因此 单一 系统 下 可 能 含有 数 
种 不 同 的 形式 。 程 序 员 都 被 隔绝 在 stat () 与 fstat () 系 统 调用 的 差异 之 外 ( 见 stat(2) 
手册 页 ) 。 参 考 man inode 可 以 了 解 你 系统 上 实际 结构 的 相关 信息 。 


由 于 inode 结 构 与 存储 设备 的 其 他 低层 细节 都 与 系统 息息相关 ， 因此 通常 不 太 可 能 将 某 
厂商 的 UNIX 文 件 系统 加 载 在 另 一 个 厂商 的 UNIX 文件 系统 下 。 不 过 我 们 可 以 通过 软件 
Network File System (NFS) 解决 这 个 问题 ， 它 可 以 跨 网 络 共 享 各 个 不 同 厂商 所 提供 的 
UNIX 文件 系统 。 


由 于 inode 表格 为 固定 大 小 ， 因此 有 可 能 出 现 文件 系统 已 满 ， 但 存储 设备 仍 有 大 量 可 用 
空间 的 情况 ; 还 有 空间 可 用 来 置 放 文件 的 数据 , 而 没有 空间 放 它 的 metadata (数据 的 数 
据 ) 。 


如 图 B-2 所 示 , inode 条 目 包括 了 系统 辨认 文件 时 所 需 的 所 有 数据 , 只 有 一 件 事 除 外 : 它 
的 文件 名 。 这 似乎 很 令 人 惊讶 , 事实 上 , 是 有 许多 使 用 类 似 文 件 系统 设计 的 操作 系统 将 
文件 名 包括 在 类 似 于 inode 的 条 目 中 。 


ep 
EE 





B-2， lnode 表格 内 容 


在 UNIX 下 , 文件 名 伴随 其 inode 编号 存储 在 目录 里 , 如 图 B-3 所 示 。 早期 20 世 纪 70 年 
代 小 型 计算 机 里 的 UNIX 系 统 ， 仅 在 目录 下 ， 为 每 个 文件 配置 16 个 字 节 :2 个 字 节 给 inode 
编号 (文件 编号 限制 为 25 = 65 536)， 剩 下 的 14 个 字 节 则 络 文件 名 使 用 ， 只 比 一 些 其 
他 系统 的 8+3 限制 好 一 点 。 : ; 


现代 UNIX 文 件 系统 允许 较 长 文件 名 ， 不 过 传统 上 还 是 有 最 大 长 度 的 限制 ， 人 全 人 
录 先 前 “文件 系统 架构 ”提供 的 getconf 范例 。 


对 目录 的 所 有 者 ,及 早期 一 些 需 打 开 与 读 取 目录 以 寻找 文件 的 UNIX 软件 而 言 , 目录 只 
能 读 取 , 不 能 写 入 。 更 复杂 的 目录 设计 在 20 世 纪 80 年 代 间 世 , opendir()、 readdir () 
与 closedGir() 程 序 库 调用 的 建立 , 让 程序 员 看 不 到 它们 的 架构 ， 这 些 调用 也 成 为 现在 
POSIX 的 一 部 分 ( 见 openidir(3) 手 册页 ) 。 为 加 强 程序 库 的 访问 ; 部 分 现行 的 UNIX 实 
现 ， 禁止 在 目录 文件 上 进行 读 取 运 算 。 
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图 B-3: 目录 表格 内 容 . 


注意 ， 为 什么 UNIX 要 将 文件 名 与 剩 下 的 文件 metadata 加 以 分 隔 呢 ? 理由 至 少 有 两 个 : 


。 ”通常 用 户 列 出 目录 内 容 的 目的 , 只 是 为 了 提醒 自己 ; 文件 是 不 是 就 在 这 个 目录 下 。 如 
果 文件 名 存在 inode 里 , 当 你 在 目录 下 寻找 各 个 文件 名 时 , 可 能 得 访问 磁盘 一 到 多 次 。 
将 名 称 存储 在 目录 文件 里 ， 再 多 的 名 称 都 只 需 自 单一 磁盘 块 里 取出 即 可 。 

。 ”如 果 文 件 名 与 inode 各 自 独立 , 则 同一 个 物理 文件 , 就 能 拥有 数 个 文件 名 , 只 需 通过 
不 同 的 目录 条 目 引 用 到 相同 inode 即 可 。 这 些 引 用 甚至 不 需要 在 同一 个 目录 里 ! 这 是 
文件 别名 的 概念 ， 在 UNIX 下 称 之 为 连接 (link) ， 是 一 个 相当 方便 且 广 为 使 用 的 功 
能 。 在 6 种 不 同 的 UNIX 版 本 下 ， 我 们 就 发 现 /usr 下 有 10%~30% 的 文件 为 连接 。 


UNIX 文 件 系统 设计 里 ,; 还 有 一 个 很 有 用 的 结果 就 是 重新 命名 文件 或 目录 ， 或 是 在 同一 
个 UNIX 实 现 文件 系统 内 移动 它 ， 速 度 都 很 快 : 只 有 名 称 需 要 改变 或 移动 ， 而 不 会 动 到 
内 容 。 在 文件 系统 之 间 移 动 文件 ， 则 需要 对 文件 所 有 块 进行 读 取 与 写 人 的 操作 。 


如 果 文 件 有 数 个 名 称 ， 那 么 哪 一 个 才能 删除 文件 ? 应 该 在 删除 后 ， 所 有 名 称 立 即 消失 ， 
还 是 只 有 某 一 个 被 删除 ? 这 部 分 是 由 文件 系统 的 设计 师 决定 支持 别名 还 是 连接 ，UNIX 
选择 后 者 。UNIX 的 inode 条 目 包括 了 连接 到 文件 内 容 的 计数 。 文 件 删除 将 引发 连接 计数 
的 减少 ， 但 只 有 计数 为 零 时 ， 文 件 块 最 终 才 会 重新 指派 给 可 用 空间 的 列表 。 


因为 目录 条 目 包 括 的 只 是 inode 数 字 , 所 以 它 只 可 以 引用 同一 个 物理 文件 系统 内 的 文件 。 
我 们 已 知道 UNIX 文 件 系统 通常 会 包含 数 个 加 载 点 , 我 们 怎么 才能 在 这 个 文件 系统 里 做 
一 个 连 到 另 一 企 文件 系统 里 的 连接 ? .解决 方式 是 使 用 另 一 种 连接 : 软 连 接 (soft link)， 
或 称 为 符号 连接 (symbolic link) ， 有 时 直接 称 为 symlink， 这 是 为 了 与 第 一 种 硬 连接 
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(hard link) 加 以 区 别 。 符 号 连接 表示 的 是 “该 目录 条 目 指向 另 一 个 目录 条 目 ”( 注 16)， 
而 非 inode 条 目 。 指 向 的 条 目 (pointed-to entry) 为 一 般 UNIX 路 径 名 称 ， 因 此 可 以 指 
向 文件 系统 内 任何 位 置 ， 就 算是 跨 加 载 点 也 可 以 。 


符号 连接 也 表示 可 能 在 文件 系统 里 产生 无 穷 循 环 的 可 能 性 , 为 防止 这 样 的 情况 发 生 , 如 
需 制作 一 连 串 的 连接 ， 请 不 要 超过 8 个 (传统 上 )。 以 下 为 两 个 元 素 的 循环 : 


$ 1s -1 | : . 显示 连接 循环 

total 0 i 可 
lrwxrwxrwx 1 jones devel | 3 2002-09-26 08:44 one -> two 
lrwxrwxrwx 志 下 jones Gevel 、 3 2002-09-26 08:44 two -> one 
$ file one | one 是 什么 文件 ? 

one: broken symbolic link to two, a ey 

$ file two two 是 什么 文件 ? 

two: broken symbolic link to one 

$ cat one : 试 着 显示 one 文件 


cat: one: Too many levels of symbolic links 


基于 技术 上 的 理由 (其 中 一 个 可 能 会 造成 循环 )., :目录 通常 不 能 有 硬 连接 ， 但 可 以 有 符 
号 连接 。 此 规则 的 例外 就 是 . 与 … 目录， 它们 在 目录 被 建立 时 即 自动 地 产生 。 


设备 作为 UNIX 文件 


UNIX 另 一 个 先进 的 做 法 ， 便 是 将 文件 的 概念 延展 到 系统 上 的 设备 。 所 有 的 UNIX 系统 
都 拥有 名 为 /dev 的 顶层 目录 ， 在 该 目录 下 ， 则 是 一 些 难 懂 的 文件 名 ， 例 如 /aev/ 
auGio、/dev/sdal 与 /aev/tty03。 这 些 设备 文件 由 特殊 软件 模块 控制 ， 也 就 是 设备 
驱动 程序 (device driver) ， 它 会 知道 如 何 与 特定 的 外 部 设备 进行 沟通 。 虽 然 设备 名 称 会 
因 系统 的 不 同 而 有 很 大 的 差异 , 但 它们 的 功能 都 是 提供 一 个 类 似 文件 的 “打开 一 处 理 一 
关闭 ”访问 模式 。 








注意 ;将 设备 整合 到 层级 式 文件 系统 里 ， 是 UNIX 最 棒 的 点 子 (The integration of devices into 


the hierarchical file system was the best idea in UNIX. ) 。 
Rob Pike et al.,《The Use of Name Spaces in Plan 9»,1992. 








/dev 树 里 的 实体 以 特殊 工具 mknod 所 建立 ; 该 工具 通常 隐藏 在 MAKEDEV 这 个 Shell 脚 
本 里 ， 且 需要 系统 管理 员 权 限 才 能 执行 ， 见 mkiod(1) 与 MAKEDEV(8) 的 手册 页 。 


大 部 分 UNIX 的 用 户 很 少 需要 引用 /dev 树 下 的 成 员 ， 不 过 有 两 个 例外 /aevynull 与 
/aev/tty， 这 些 我 们 在 2.5.5.2 节 里 已 做 过 介绍 。 





注 16: 在 inode 中 的 文件 类 型 会 记录 文件 是 符号 连接 ， 且 在 大 部 分 的 文件 系统 设计 中 ， 它 指 到 
的 文件 名 称 会 被 存储 在 符号 连接 的 数据 块 中 。 
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20 世纪 90 年代, 一些 UNIX 版 本 引进 随机 伪 设 备 (random pseudodevice), /dev/ 
urandom, 作为 永远 非 空 的 随机 字 节 流 。 许多 密码 与 安全 性 软件 , 需要 这 样 的 数据 来 源 。 
我 们 在 第 10 章 已 经 展示 过 ， 使 用 /dev/urandonm 构建 一 个 难 猜 的 临时 文件 名 。 


UNIX 文件 到 底 可 以 多 大 


UNIX 的 文件 大 小 通常 受 限 于 两 个 硬性 条 件 : 在 inode 条 目 里 所 分 配 到 的 位 数 , 用 来 保存 
文件 大 小 (以 字 市 计 ), 以 及 文件 系统 本 身 的 大 小 。 除 此 之 外 ， 有些 UNIX 内 核 还 提供 管 

理 员 设 置 文件 大 小 的 限制 。 大 部 分 UNIX 文 件 系统 所 使 用 的 数据 结构 会 在 一 个 文件 中 记 
录 数 据 块 列表 ， 加 诸 的 限制 是 大 约 168 万 个 块 ， 其 中 一 个 块 的 大 小 基本 上 是 1 024 到 
65 536 个 字 节 ， 可 在 文件 系统 建立 期 被 设置 且 固 定 住 。 最 后 ,而 文件 系统 备份 设备 的 容 
量 ， 也 可 能 会 加 上 更 进一步 与 站 人 台 相关 的 限制 。 





没有 名 称 的 文件 


UNIX 操 作 系 统 另 一 一 个 特点 ， 就 是 打开 供 输入 或 输出 的 文件 名 称 ， 不 会 被 保留 在 内 
核 的 数据 结构 中 。 因此, 在 命令 行 上 针对 标准 输入 、 标 准 输出 或 是 标准 错误 输出 而 
被 重 定向 的 文件 名 , 都 不 为 被 引用 的 进程 所 知 。 想 想 看 : 我 们 的 文件 系统 里 已 经 有 
几 百 万 个 文件 了 ,这 三 个 没有 名 称 也 没有 不 好 |, 不 过 为 了 弥补 这 个 缺陷 ,近期 有 些 
UNIX 系统 提供 了 这 样 的 名 称 /dev/stdin. /Gev/stdout 与 /dev/stderr, 或 是 
比较 难 记 的 /dev/fd/0、/dev/fd/1 己 /dev/fd/2。GNU/Linux 与 SunSolaris 还 
支持 /proc/PID/f6/0。 下面 我 们 可 以 来 看 看 你 的 系统 是 否 支持 它们 ; 你 要 不 就 是 
执行 成 功 ， 如 下 所 示 : 


$ echo Hello, world > /dev/atdout 
Hello, world 


要 不 就 是 失败 ， 如 下 所 示 : 


$ echo Hello, world > /dev/atadout 
/dev/stdout:. Permission denied. 


很 多 UNIX 程 序 发 现 它们 在 重 定向 文件 时 需要 名 称 ,所 以 一 般 惯例 是 使 用 连 字 号 作 
为 文件 名 , 使 用 连 字 号 不 表示 文件 名 为 连 字 号 ; 而 是 指标 : 准 输入 或 标准 输出 , 视 上 
下 文 而 定 。 我们 在 这 里 强调 这 是 习惯 用 法 ， 因 为 并 非 所 有 UNIX 软件 都 如 此 应 用 

如 果 你 就 是 不 喜欢 这 样 的 文件 ,你 也 可 以 前 置 目 录 名 称 伪装 它 , 例如 ./--data。 

部 分 程序 遵 篇 惯例 , 详 见 2.5.1 节 使 用 双 连 字号 选项 --， 表示 命令 行 自 此 之 后 是 一 
个 文件 ， 而 非 一 个 选项 ， 不 过 这 种 方式 依然 并 非 统一 用 法 。 
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大 部 分 现行 UNIX 文 件 系 统 都 使 用 32 位 整数 , 以 保存 文件 大 小 , 且 由 于 文件 定位 系统 调 
用 ， 可 以 在 文件 中 前 后 移动 ， 因 此 该 整数 必须 带 有 正 负 号 。 最 大 可 能 的 文件 大 小 为 
231 - 1 个 字 节 ， 约 为 2GB ( 注 17)。 到 了 20 世 纪 90 年 代 初 期 ， 许 多 磁盘 设计 都 小 于 此 
数字 , 但 在 2000 年 时 磁盘 却 能 容纳 100GB 甚至 更 大 的 空间 ， 甚 至 还 能 将 数 个 磁盘 结合 
成 单一 逻辑 性 磁盘 ， 所 以 现在 才能 有 更 大 型 的 文件 系统 。 


UNIX 厂 商 已 渐渐 升级 至 可 处 理 64 位 的 文件 系统 上 , 即 能 支持 至 8 亿 GB。 但 你 想 想 , 如 
果 写 了 一 个 这 么 大 的 文件 , 以 当前 合理 的 执行 速度 10MB/s 来 看 , 这 个 文件 要 执行 27800 
年 ! 这 个 移植 绝对 会 产生 相当 大 的 影响 , 因为 所 有 现行 使 用 “随机 访问 文件 定位 系统 调 
用 ”的 软件 都 必须 被 更 新 。 为 避免 这 种 大 规模 的 升级 , 很 多 厂商 仍 允 许 在 较 新 系统 上 使 
用 旧式 的 32 位 大 小 ， 只 要 不 超过 2GB 限制 即 可 正常 运作 。 


UNIX 文 件 系统 建立 时 ,基于 效能 上 的 理由 会 保留 一 小 部 分 空间 ,通常 是 10% ,给 由 root 
执行 的 进程 使 用 。 文 件 系 统 本 身 所 需 的 inode 表 格 空间 ， 通 常 是 放 在 特殊 的 初级 块 ， 只 
供 磁盘 控制 器 硬件 可 以 访问 。 因 此 ， 磁 盘 有 效 空 间 通常 只 有 磁盘 厂商 估计 的 80%。 


有 些 系统 里 会 提供 降低 这 些 保留 空间 的 命令 : 在 大 型 磁盘 上 , 我们 会 建议 你 使 用 它 。 在 
BSD 及 商用 UNIX 系统 上 ， 你 可 以 参考 tunefs(8) 手 册页 ，GNU/Linux 的 系统 则 可 参考 
tune2fs(8)。 


内 置 Shell 命 令 ulimit 可 控制 系统 资源 的 限制 。-a 选 项 将 显示 所 有 资源 的 值 。 在 我 们 
的 系统 上 ， 结 果 如 下 : | 


$ ulimit -a 显示 当前 用 户 的 进程 限制 


file size (blocks) unlimited 


你 的 系统 可 能 会 由 于 本 地 管理 的 政策 不 同 而 有 不 一 样 的 结果 。 


在 某 些 UNIX 站 台 ， 磁 盘 限 制 是 启动 的 〈 详 见 gquota(1) 的 手册 页 )， 它 可 以 进一步 限制 
单一 用 户 所 能 使 用 的 文件 系统 空间 总 量 。 


UNIX 文件 属性 


本 附录 稍 早 , 在 “文件 系统 实现 概况 ” 的 部 分 曾 提 及 UNIX 文 件 系统 的 实现 ， 并 说 明 inode 
的 条 目 记 录 中 包括 了 metadata: 除了 名 称 之 外 ， 有 关 文 件 的 相关 信息 。 现在 我 们 要 讨论 
的 就 是 这 些 属性 ， 因 为 它们 与 文件 系统 的 用 户 息息相关 。 


注 17: GB = gigabyte， 约 十 亿 字 节 。 在 计算 机 里 ， 使 用 G 如 果 非 度量 衡 单位 ， 即 表示 2 = 
1,073,741,824。 
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文件 所 有 权 与 权限 


或 许 ， 与 单一 用 户 的 个 人 计算 机 文件 系统 比 起 来 ， UNIX 文件 的 最 大 不 同 之 处 就 在 于 所 
有 权 (ownership) 与 权限 (permissions) 了 。 


所 有 权 


在 很 多 的 个 人 计算 机 上 , 任何 的 进程 或 用 户 都 能 读 取 或 写 人 所 有 文件 , 因此 计算 机 病毒 
现在 对 读者 来 说 非常 熟悉 。 但 是 因为 UNIX 用 户 能 访问 的 文件 系统 是 受到 限制 的 ， 所 以 
要 赫 换 或 破坏 重要 的 文件 系统 元 件 很 难 :病毒 很 少 对 UNIX 系统 造成 问题。 


UNIX 文件 有 两 种 所 有 权 (或 称 所 有 权 ): 用 户 (user) 与 组 (group)， 它 们 各 有 自己 的 
权限 。 一般 来 说 , 文件 的 所 有 者 应 具 完 整 的 访问 权 , 而 该 所 有 者 的 工作 组 的 成 员 拥有 的 
权限 会 有 些许 限制 ， 除 此 之 外 的 其 他 人 ， 权限 就 再 更 少 一 些 。 前 述 最 后 的 类 别 , 在 UNIX 
的 文件 里 称 之 为 其 他 人 (other) 。 ,文件 所 有 权 可 使 用 1S 命令 的 元 长 模式 来 显示 。 


新 的 文件 通常 会 继承 其 创造 者 的 所 有 者 与 组 成 员 , 如 果 要 给 予 适 当 的 权限 , 则 只 有 系统 
管理 员 通 过 chown 与 chgrp 命令 改变 它们 的 属性 。 


在 inode 条 目 记 录 中 , 用 户 与 组 都 以 数字 识别 而 非 名 称 。 因为 人 们 通常 偏好 以 名 称 识别 ， 
因此 系统 管理 员 提供 对 应 的 表格 ， 一 直 以 来 我 们 都 称 为 密码 文件 : /etc/passwd 与 组 文 
件 /etc/group。 在 大 型 站 点 ， 这 些 文件 多 半 会 替换 为 某 种 网 络 分 布 式 的 数据 库 形式 。 
这 些 文件 或 是 数据 库 ， 任 何 登 录 的 用 户 都 可 读 取 ， 不 过 现今 偏向 使 用 程序 库 调 用 
setpwent () 、getpwent () 与 endpwent () 访问 密码 数据 库 、 使 用 setgtent () 、 
getgrent ( ) 与 endgrent () 访问 组 数据 库 ， 参 考 getpwent(3) 与 getgrent(3) 的 手册 页 。 
如 果 你 的 站 点 使 用 数据 库 取 代 /etc 下 的 文件 , 你 可 以 试 试 Shell 命令 : ypcat passwd 
检查 密码 数据 库 , 或 ypmatch joines passwd 寻 找 用 户 ,jones 的 条 目 记 录 。 如 果 你 
的 站 台 使 用 NIS+ 而 非 NIS,， 则 yP 命令 应 改 为 niscat pasowas 人 mnaten 
name=jones passwd:;org_dir, 


重点 部 分 是 通过 用 户 与 组 标识 符 的 数字 值 来 控制 访问 ,如 果 一 文件 系统 通过 用 户 smith 
以 user ID 100 被 加 载 或 导入 ， 则 一 个 文件 系统 的 user ID 100 指定 给 用 户 jones， 那 
么 jones 便 能 完整 访问 smith 的 文件 。 就 算 目标 系统 下 还 有 另 一 个 smith 用 户 也 一 
样 。 这 类 的 考虑 在 大 型 组 织 的 UNIX 文 件 系 统 下 就 相当 重要 了 , 因 它 面向 全 局 性 可 访问 
的 UNIX 文 件 系统 : 用 户 与 组 的 识别 必须 涵盖 整个 组 织 范 围 ， 是 必须 的 考虑 。 问 题 不 是 

只 有 这 里 讲 的 这 么 简单 : 用 户 与 组 的 标识 符 也 有 诸多 限制 。 旧式 UNIX 系统 仅 能 为 每 一 
个 配置 16 位 ， 也 就 是 总 计 为 2 = 65 536 个 值 。 较 新 的 UNIX 系统 则 允许 : 32 位 的 标识 
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符 ， 遗憾 的 是 ， 它 们 有 许多 都 被 加 诸 严格 的 限制 ， 大 大 地 限制 了 标识 符 的 数目 ， 这 些 数 
字 对 大 型 企业 而 言 仍 嫌 不 足 。 


权限 


UNIX 文件 系统 权限 有 三 种 类 型 ; 读 取 (read)、 写 入 (write) 与 执行 (execute) 。 它 们 
每 一 个 在 inode 数据 结构 里 都 只 需要 单一 位 ， 即 可 指出 权限 的 存在 与 否 。 它 们 会 分 别针 
对 用 户 、 组 , 与 其 他 人 设置 权限 。 文 件 权限 可 通过 1s 命 令 的 宛 长 模式 显示 , 通过 chmod 
命令 变更 。 因 为 权限 每 个 设置 都 只 需要 三 个 位 , 因此 它 可 以 单一 八进制 ( 注 18) 数字 表 
示 ，chmod 命令 也 接受 3 个 或 4 个 八进制 数字 的 参数 或 符号 形式 。 





r 


chmod 
语法 | 
chmod [ options ] mode file(s) 
主要 选项 
-上 
强制 变更 ， 如 果 可 能 的 话 (如 果 失 败 ， 不 要 显示 信息 ) 。 
-R 
将 变更 递归 地 应 用 到 整个 目录 。 
用 途 ; 
”变更 文件 或 目录 的 权限 。 
存 为 模式 
必需 的 参数 mode, 可 以 是 绝对 性 的 3 个 或 4 个 八进制 数字 之 一 个 权限 掩 码 , 或 
是 一 或 多 个 字母 的 符号 表示 ; a (全 部 ， 同 于 ugo)、g (组 )、o (其 他 人 )、 
或 U (用 户 )， 再 接 上 = (设置 )、+ (加 入 ), 或 - (除去 ) ， 最 后 则 是 一 或 多 
个 上 ( 读 取 )、w ( 写 入 ) ,或 x (执行 ) 。 罗 符号 的 设置 需 以 去 点 分 隔 ， 因 此 ， 
755 的 模式 ， 等 同 于 U=rwx, go=T+X、a=LX,U+W 与 a=Twx, GO-Ww。 
全 和 
递归 的 形式 是 相当 危险 ， 请 谨慎 使 用 ! 它 可 能 会 因 误 用 chmod -R 应 用 ， 而 
需要 从 备份 媒体 中 恢复 整个 文件 树 。 

















注 18: BSD 系统 例外 : 它们 提供 sappnd 与 uappnd 标志 ， 可 使 用 chflags 设置 之 。 
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注意 : 有 些 操作 系统 支持 额外 的 权限 。 其 中 有 个 很 有 用 、 但 UNIX 没有 的 权限 ， 叫 作 附 加 权限 
( 注 19): 它 在 日 志文 件 上 特别 好 用 , 可 用 来 确保 数据 只 能 被 加 入 , 但 现存 的 数据 不 能 被 更 
改 。 当 然 ， 如 果 此 文件 能 被 删除 ， 就 能 再 替换 为 变更 数据 后 的 文件 ， 所 以 附加 权限 提供 的 
安全 性 只 是 错觉 。 l 


默认 权限 的 设置 会 应 用 至 每 一 个 新 建立 的 文件 : 它们 由 umask 命 令 控制 , 以 给 定 的 参数 
设置 默认 值 ， 如 未 提供 参数 ， 则 直接 显示 默认 值 。umask 的 值 为 三 个 八进制 数字 , 表示 
要 被 拿 走 的 权限 : 通常 值 为 077， 指 的 是 给 用 户 完整 的 权限 ( 读 取 、 写 人 、 执 行 )， 而 组 
与 其 他 人 都 不 具 任何 权限 。 其 结果 为 新 建立 之 文件 , 限制 在 只 有 拥有 它们 的 用 户 可 以 访 
问 。 


现在 让 我 们 来 看 看 这 些 文件 权限 : 
$ umask 显示 当前 的 权限 掩 码 
2 
$ touch foo 建立 一 个 空 文件 
$ 18 -1 foo 列 出 与 文件 相关 的 信息 
-IW-rW-r-- 1 jones devel 0 2002-09-21 16:16 foo 
$ rm foo 删除 文件 
$ 1s -1 foo 再 次 列 出 与 文件 相关 的 信息 


ls: foo: No such file or directory 


一 开始 ,权限 掩 码 为 2 (确切 说 法 为 002), 即 删除 其 他 人 的 写 入 权限 。touch 只 是 更 新 
文件 最 后 写 人 的 时 间 戳 ， 如 有 需要 时 建立 文件 。1s -1 命令 为 元 长 式 文件 列 出 的 惯用 
语法 。 它 报告 了 - 的 文件 类 型 (一 般 文件 ) 与 权限 字符 串 rw-rw-r--( 指 的 是 用 户 与 组 
具 读 取 与 写 入 权限， 其 他 人 则 具 读 取 权 限 ) 等 信息 。 


我 们 将 掩 码 改 为 023 之 后 重建 文件 ,以 删除 组 的 写 入 权限 与 其 他 人 的 写 入 与 执行 的 权限 。 
会 看 到 这 样 的 权限 字符 串 : rw-r--r--， 也 就 是 我 们 所 预期 的 : 删除 组 与 其 他 人 的 写 人 
权限 : 


$ umask 023 重 设 权限 掩 码 

s touch foo 建立 空 文件 

$ 18 -1 foo 列 出 文件 相关 信息 

-IW-r--r--~ 1 jones devel 0 2002-09-21 16:16 foo 
权限 运作 


什么 是 执行 权限 ? 文件 通常 不 具 此 权限 , 除非 它们 是 可 以 执行 的 程序 或 脚本 。 通常 这 类 
程序 的 连接 器 都 会 自动 地 加 上 执行 权限 , 不 过 脚本 不 会 , 我 们 得 自行 使 用 chmod 变更 。 


注 19: 默认 权限 。 
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在 复制 一 个 拥有 执行 权限 的 文件 ， 例 如 /bin/pwd，, 该 权限 会 被 保留 除非 umask 的 值 
使 得 它们 被 删除 : 


$ umask 显示 当前 的 权限 掩 码 

023 

s rm -E foo 删除 任何 存在 的 文件 

$ cp /bin/pwa foo 复制 一 份 系统 命令 

$ 1s -1 /bin/pwd foo ” 列 出 文件 相关 信息 

-IWXI-XIr-X 1 root root 10428 2001-07-23 10:23 /bin/pwd 
—IWXIr-XI-—- 1 jones devel 10428 2002-09-21 16:37 foo 


最 后 结果 rwxr-xr-- 反映 部 分 权限 的 消失 组 的 写 人 访问 消失 、 其 他 人 的 写 和 与 执行 
也 不 存在 。 


最 后 ， 我 们 使 用 符号 形式 的 参数 执行 chmod， 为 所 有 人 加 入 执行 权限 : 


$ chmod a+x foo 为 所 有 人 加 入 执行 权限 
$ 18 -1 foo 列 出 元 长 式 文件 信息 
-IWXI-XI-X 1 jones devel 10428 2002-09-21 16:37 foo 


最 后 的 权限 字符 串 为 rwxr-xr-x: 用 户 、 组 与 其 他 人 均 可 执行 。 这 里 要 注意 的 是 ,权限 
掩 码 不 会 对 chmoq 操 作 造 成 影响 : 掩 码 只 在 文件 建立 的 时 候 有 影响 。 至 于 复制 的 文件 ， 
行为 模式 和 原始 的 pwd 命令 一 样 : | 2 


$ /bin/pwd 尝试 系统 版 本 

/tmp 

$ pwad 以 及 Shell 内 置 版 本 
/tmp 

$ /foo . | 还 有 我 们 对 系统 版 本 所 复制 的 
/tmp 

$ file foo /bin/pwd 查看 这 些 文件 的 信息 

foo: ELF 32 位 LSB executable, Intel 80386, version 1, 


Gynamically linked {uses shared libs), stripped 
/bin/pwd: ELF 32 位 LSB executable, Intel 80386, version 1, 
dynamically linked {uses shared libs), stripped 


请 注意 我 们 在 引用 foo 时 加 上 目录 前 置 字符 : 基于 安全 性 理由 , 绝 不 要 在 PATH 列表 里 
包括 当前 目录 。 如 果 你 一 定 要 这 么 做 ， 也 请 你 将 它 放 在 最 后 一 个 ! 





警告 ， 如 果 你 试 过 上 述 这 些 , 在 试图 执行 /tmp 下 的 命令 时 ， 可 能 会 得 到 permission-denied 的 回 
应 。 在 提供 这 样 功能 的 系统 上 ,如 GNU/Linux, 系统 管理 员 有 时 会 以 没有 执行 权限 的 模式 
加 载 这 个 目录 (tmp)， 请 检查 /etc/fstab 下 是 否 有 noexec 选项 。 使 用 这 个 选项 的 另 一 
个 理由 是 为 了 避免 特洛伊 木马 脚本 (参考 第 15 章 ) 在 像 /tmp 这 样 公开 可 写 人 的 目录 下 被 
执行 。 你 仍然 可 以 将 它们 放 入 Shell 中 而 执行 ， 但 是 你 需要 知道 为 什么 要 这 么 做 。 





下 面 是 你 删除 可 执行 权限 又 试图 执行 程序 时 ， 会 发 生 的 事 : 
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$ chmod a-x foo | 删除 所 有 人 的 可 执行 权限 

$ 18 -1 foo 列 出 元 长 式 文件 信息 
-IW-I--I--~ 1 jones devel 10428 2002-09-21 16:37 .foo 
$ ./foo 试图 执行 程序 


bash: ./foo: Permission denied 


这 里 指 的 不 是 文件 是 否 有 像 可 执行 程序 一 样 的 执行 能 力 (ability ) ， 而 是 是 否 拥有 执行 权 
限 (possession of execute permission)， 决 定 了 它 能 否 像 命令 一 样 被 执行 。 这 是 UNIX 
里 一 个 很 重要 的 安全 功能 。 


当 你 提供 执行 权限 给 不 应 该 具有 此 权限 的 文件 时 : 


$ umask 002 b 删除 默认 的 都 可 写 入 权限 

s rm -E foo 删除 任何 已 存在 的 文件 

$ echo ‘Hello, world' > foo 建立 一 个 单行 文件 

$ chmod a+x foo 使 之 可 执行 

$ 18 -1 foo . - 显示 我 们 做 的 变更 ， 
-IWXIWXI-X 1 jones: devel 13 2002-09-21 16:51 foo 

$ ./foo | 试图 执行 程序 

./fo0: line 1: Hello,: command not found 

$s echo $8? . 显示 退出 状态 三 

127 


Shell 会 要 求 内 核 执 行 . /foo 及 得 到 失败 报告 ， 其 使 用 设置 为 ENOEXEC 的 程序 库 错 误 
指示 器 。Shell 接 下 来 会 试 着 自己 执行 它 。 在 命令 行 上 Hello，wor1ld 被 解释 为 命令 
Hello、 参 数 wor1d。 因 为 在 查找 路 径 下 找 不 到 这 样 的 命令 ,所 以 Shell 报告 一 连 串 的 
错误 信息 ， 并 回 传 127 退出 状态 码 ， 详 见 6.2 节 。 


检查 权限 时 ， 依 序 为 用 户 、 组 ,最 后 才 是 其 他 人 。 它 们 是 由 所 属 的 进程 决定 该 设置 哪些 
权限 位 。 因 此 很 可 能 文件 属于 你 , 但 你 却 不 能 读 , 而 你 的 组 成 员 及 系统 里 的 其 他 人 却 可 
以 。 像 这 样 : 


$ echo 'This is a gecret' > top-secret 建立 单行 文件 


$ chmod 044 top-secret 对 组 与 其 他 人 ， 删 除 所 有 权限 只 保留 读 取 权限 
Se 显示 我 们 的 变更 

二 二 二 和 二 1 jones devel 本 7 2002-10-11 14:59 top-secret 

$ cat top-secret. > 试 着 显示 文件 

cat: top-secret: Permission denied 

$ chmod u+r top-secret 允许 所 有 者 读 取 文件 

$ 18 -1 显示 我 们 的 变更 

-I--r--r--' jones : devel 17 2002-10-11 14:59 top-secret 


$ cat top-secret | E 这 时 ， 便 能 显示 了 1 
This is a secret Se 

所 有 UNIX 文件 系统 都 另 提供 额外 的 权限 位 : set-user-ID、 set-group-ID 与 sticky ( 粘 

连 ) 位 。 为 兼容 旧 系 统 并 避免 增加 已 存在 的 行 长 度 , 1s 不 使 用 三 个 额外 的 权限 字符 来 显 

示 这 些 权 限 ， 而 是 将 x 改 为 其 他 字母 。 详 见 chmrod(1)、cprmrod(2) 与 18(1) 手 册页 。 基 于 

安全 性 理由 ，Shell 脚本 绝 不 应 该 设置 set -user-ID 或 set-group-ID 权 限 位 : 我 们 发 
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现 太 多 这 类 脚本 里 可 怕 的 安全 性 漏洞 。 这 些 权限 位 与 Shell 脚 本 的 安全 性 议题 , 在 第 15 
章 已 说 明 过 。 


有 时 我 们 会 在 商用 软件 上 应 用 仅 允 许 执 行 的 权限 (--x--x--x)， 以 禁止 复制 、 除 虫 ， 
与 追踪 操作 ， 但 程序 仍 可 以 执行 。 


目录 权限 

现在 为 止 ， 我 们 讨论 的 都 是 一 般 文件 的 权限 。 在 目录 上 ， 这 些 权限 的 解读 会 稍 有 不 同 。 
目录 的 读 取 , 即 能 列 出 它 的 内 容 , 例如 使 用 1s。 写 入 , 则 表示 你 能 在 目录 下 建立 或 删除 
文件 ,即便 你 对 目录 下 的 文件 不 具 写 人 权限 : 该 特权 保留 给 操作 系统 ， 以 维持 文件 系统 
的 一 致 性 。 执 行 访问 ， 即 你 可 以 访问 文件 以 及 该 目录 下 的 子 目录 (当然 受 它们 自己 权限 
的 管制 )， 特 别 是 你 还 可 以 跟随 该 目录 下 的 路 径 名 称 。 


由 于 目录 的 执行 与 读 取 较 难 区 分 ， 我 们 在 这 里 举例 解释 : 


S umask 显示 当前 的 权限 掩 码 
22 

$ mkdir test ' 建立 子 目录 

$ 18 -Fld test 显示 目录 权限 


drwxr-xr-x 2 jones devel 512 Jul 31 13:34 test/ 
$ touch test/the-file 建立 空 目 录 


$ 18 -1 test 目录 内 容 元 长 式 列 出 
-rw-r--r-- 1 jones devel 0 Jul 31 13:34 test/the-file 


至 此 ， 都 为 一 般 行 为 模式 。 现 在 ， 我 们 删除 读 取 权限 ， 但 留 下 执行 权限 : 


$ chmod a-r test 删除 所 有 人 读 取 目录 的 权限 
$ 1s -lFd test . 显示 目录 权限 
d-wx--x--xXx 2 jones, devel :512 Jan 31 16:39 test/ 


$ 18 -1 test | 试图 列 出 目录 内 容 


ls: test: Permission denied 


$ 18 -1 test/the-file 列 出 文件 本 身 
-rw-r--r-- 1 jones devel 0 Jul 31 13:34 test/the-file 


第 二 个 1s 失败 是 因为 缺乏 读 取 权 限 , 但 因为 有 执行 权限 ， 所 以 第 三 个 1s 成 功 。 这 里 呈 
现 的 是 : 删除 目录 的 读 取 权限 并 不 能 防止 目录 下 的 文件 被 访问 , 用 户 只 要 知道 文件 名 就 
可 以 这 么 做 。 


当 我 们 删除 执行 访问 ， 却 未 恢复 读 取 权 限时 : 


$ chmod a-x test 删除 所 有 人 执行 目录 的 权限 
$ 18 -1lFd test 列 出 目录 
d-Ww------- 3 jones devel 512 Jul 31 13:34 test/ 
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:SS 1s -1.test ， . 试图 列 出 目录 内 容 


1s: test: Permission denied 


$ 18 -1 test/the-file 试图 列 出 文件 


. 1s; test/the-file: Permission denied 


$ cd test 试图 改变 自 录 


test: Permission denied. 

目录 树 不 再 允许 所 有 用 户 浏览 ，root 除外 。 

最 后 我 们 恢复 读 取 ， 但 不 要 恢复 执行 访问 ， 再 重复 刚刚 做 的 事 : 
RS 。 “加 入 所 有 人 读 取 目 录 的 权限 


$ 18 -1LFd tegst 显示 目录 权限 
drw-r--r-- ‘2 jones devel 512 yul 31 13:34.test/ 
$§ 18 -1 tegt 试图 列 出 目录 内 容 
ls: test/the-file: Permission denied 

total 0 | 

$ 1s -1 test/the-file 试图 列 出 文件 
ls: test/the-file: Permission denied 

$ cd teast 试图 改变 目录 





test: Permission denied. i 
缺乏 对 目录 的 执行 权限 ， 是 无 法 浏览 它 的 内 容 ， 或 是 不 能 使 它 成 为 当前 的 工作 目录 。 


目录 设置 黏着 位 时 ， 里 头 所 含 的 所 有 文件 就 只 有 它们 的 所 有 者 或 目录 所 有 者 才能 删除 。 
此 功能 最 常用 在 公用 的 可 写 和 目录, 例如 /tmp、/var/tmp (过 去 的 /usr/tmp) 这 些 ， 
还 有 邮件 进来 的 目录 ,以 防止 用 户 删 除 不 属于 他 们 的 文件 。 


某 些 系统 上 ， 目 录 设 置 set-group-ID 位 时 ， 新 建立 的 文件 的 组 ID 即 为 此 目录 的 组 ID 而 
非 所 有 者 所 属 组 。 可惜 的 是 , 这样 的 权限 位 并 非 在 所 有 系统 下 都 如 此 处 理 。 男 有 一 些 系 
统 ， 其 行为 模式 需 视 加 载 的 文件 系统 为 何 而 定 ， 所 以 你 应 该 在 你 系统 里 ， 再 确认 一 次 
mount 命令 的 手册 页 。 当 有 好 几 个 用 户 协同 开发 项 目 时 ，set-group-ID 位 的 设置 就 相当 
好 用 了 。 我 们 可 以 为 此 项 目 建立 一 个 特殊 的 组 , 并 建立 成 员 , 然后 再 将 项 目的 目录 设置 
给 该 组 。 


部 分 系统 结合 set-group-ID 位 的 设置 与 group-execute 位 ,这 种 用 法 太 过 复杂 , 已 超出 本 
书 范围 ， 在 此 不 进行 介绍 。 的 
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目录 读 取 与 执行 权限 
2 
看 不 到 父 目 录 的 情况 下 , 仍 能 看 到 子 目录 下 的 文件 。 最 常见 的 使 用 就 是 在 用 户 的 网 
页 结构 下 。 根 目录 通常 为 Twx--x--x 这 样 的 权限 ， | 出 目录 内 容 
或 检查 文件 。 但 网 页 目录 的 起 始 ,假设 是 $SHOME/public_html， 包 含 其 子 目 录 ， 
我 们 可 以 给 予 它们 rwxr-xr-x 这 样 的 权限 ,上 且 在 那 之 下 的 文件 , 则 至 少 拥 有 Iw- 
r--r-- 的 权限 。 


另 一 个 例子 是 ,假设 为 了 安全 性 的 理由 , 系统 管理 员 想 要 对 先前 未 防护 的 文件 子 目 
录 进 行 读 取 保护 (read-protect) 。 他 需要 做 的 就 只 是 删除 该 子 目 录 顶 层 的 根 目 录 
(单一 目录 ) 之 读 取 与 执行 权限 chmod a-rx dirname 即 可 ; 这 使 所 有 这 之 下 的 
文件 都 立即 无 法 新 的 打开 (但 已 打开 的 则 不 受 影响 )， 即便 他 们 拥有 个 别 文件 的 使 
用 权限 。 

















注意 ; 有些 UNIX 系统 支持 访问 控制 列表 (access control lists，ACL)。 它 可 以 提供 较 细 的 访问 
控制 , 可 针对 个 别 的 用 户 与 组 指定 非 默 认 的 权限 。 可惜 的 是 , ACL 工 具 的 设置 与 显示 在 各 
系统 间 都 不 尽 相 同 ,使 其 难以 在 异 构 环 境 中 使 用 ,在 本 书 中 做 进一步 讨论 也 不 适当 。 如 果 
你 想 了 解 更 多 ， 可 以 试 着 使 用 man -k acl 或 man -k 'access control list', 在 你 
的 系统 下 查找 相关 的 命令 。 








文件 时 间 戳 

UNIX 文 件 的 inode 条 目 记 录 包 括 三 个 重要 时 间 惟 : 访问 时 间 、inode 变更 时 间 与 修改 时 
间 。 这 些 时 间 一 般 是 自 epocA( 注 20) 算 起 的 秒 数 计 之 ,epoch 的 UNIX 系 统 时 间 为 00:00:00 
UTC, January 1, 1970， 不 过 有 些 UNIX 实现 提供 更 好 的 计时 单位 。 以 UTC ( 注 21) [ 国 
际 标准 时 间 (Coordinated Universal Time) ， 早 期 为 格林 威 治 时 间 (Greenwich Mean 
Time，GMT)] 计算 的 时 间 ， 表 示 访 时间 戳 不 受 本 地 时 区 设置 影响 。 


访问 时 间 是 通过 数 个 系统 调用 而 被 更 新 ， 包 括 那些 读 取 与 写 和 文件 的 操作 。. 





注 20: epoch，ep'ok， 名 词 。 用 以 编号 之 后 年 度 的 一 个 固定 时 间 点 。 


注 21: 经 委员 会 一 臻 通过 : UTC 为 不 受 语 言 影响 的 字母 缩 略 字 , 法 文 的 展开 为 Temps Universel 
Coordonné, 见 http:/www.npl.co.ukK/time/time _scales. himl, http://aa.usno.navy.mil/fag/ 
docs/UT.html, 与 htip: Mwww. boulder.nist.gov/timefreq/general/misc.htm, 了 解 更 多 与 时 
间 标 准 有 关 的 信息 。 
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inode 变更 时 间 是 在 文件 建立 之 初 ， 以 及 inode metadata 被 修改 时 被 设置 。 


修改 时 间 的 变更 是 在 文件 块 被 更 改 ， 而 非 metadata (文件 名 、 用 户 、 组 、 连 接 计数 或 权 
限 ) 变更 时 。 


touch 命 令 ,或 utime () 系统 调用 ,可 用 于 改变 文件 访问 与 修改 时 间 ; 但 不 会 改变 inode 
变更 时 间 。 近 期 的 GNU touch 版 本 提供 选项 ， 可 针对 文件 标明 时 间 。1s -1 命令 显示 
的 是 修改 时 间 ， 但 加 上 -c 选项， 则 可 显示 inode 变更 时 间 ， 加 上 -u 选 项 ,会 显示 访问 
时 间 。 


这 些 时 间 丽 都 不 够 完美 。 inode 变更 时 间 表 示 两 种 完全 不 同 的 目的 ， 应 该 已 经 个 别 分 开 
地 被 记录 下 来 。 因 此, 它 并 不 能 告诉 你 这 个 文件 首 度 出 现在 UNIX 文 件 系 统 里 的 确切 时 
间 。 | | 


访问 时 间 在 以 read ( ) 系统 调用 读 取 文件 时 被 更 新 ， 而 不 是 在 使 用 mmap ( ) 对 应 文件 到 
内 存 以 及 以 该 方式 读 取 文件 时 。 


修改 时 间 可 能 稍 具 可 靠 性 ,不 过 文件 复制 命令 通常 都 会 重 设 输出 文件 的 修改 时 间 为 当前 
时 间 ， 即便 它 的 内 容 完全 没有 变更 , 这 并 非 我 们 所 希望 的 ， 所 以 , 复制 命令 cp 提供 -p 
选项 ,让 你 可 以 保留 文件 的 修改 时 间 。 


最 后 备份 的 时 间 不 会 被 记录 : 即 备份 系统 必须 保留 补助 性 的 数据 ， 以 追踪 自 最 后 一 次 备 
份 至 今 已 进行 修改 的 文件 。 


注意 : 文件 系统 备份 软件 ,在 保留 文件 时 间 惟 这 部 分 都 相当 谨慎 处 理 。 否则 在 每 次 备份 之 后 ， 所 
有 文件 都 看 起 来 像 刚 被 读 取 。 使 用 打包 工具 , 例如 tar, 作 备 份 的 系统 ， ee 
变更 时 间 ， 使 得 该 时 间 蕉 无 法 再 用 于 其 他 用 途 。 


基于 某 些 目的 ， 有 人 和 希望 能 将 读 取 、 写 入 、 更 名 、 改变 metadata 的 时 间 改 分 开 记录 ， 这 
样 的 分 隔 方式 在 UNIX 里 是 不 可 能 的 。 


文件 连接 . 


尽管 我 们 在 本 附录 之 前 的 “文件 系统 实现 概况 ”讨论 过 ， 硬 连接 与 软 连接 (符号 连接 ) 
的 工具 非常 多 。 但 它们 其 实 遭 到 一 些 非 难 , 意见 无 非 是 同一 个 东西 , 给 它 多 个 名 称 只 会 
混淆 用 户 , 因为 连接 是 让 两 个 已 隔离 的 文件 树 接 在 一 起 。 移动 了 含有 连接 的 子 树 就 会 切 
断 连接 , 让 文件 系统 产生 不 一 致 的 情况 。 图 B-4 展 现 的 是 因 删 除 而 切断 了 软 连 接 的 情况 ， 
而 图 B-5 则 是 告诉 你 如 何 保留 这 样 的 连接 , 这 完全 是 看 你 在 建立 连接 时 , 是 以 相对 还 是 
绝对 路 径 而 定 。 
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图 B-4: 移动 切断 了 软 连接 


mv /old/foo CA | 





图 B-5: 移动 可 以 保留 绝对 符号 连接 


以 下 为 硬 连 接 与 软 连 接 会 出 现 的 其 他 问题 : 


注 22: 


当 连 接 的 文件 更 新 时 ， 不 管 它 是 被 文件 复制 命令 或 是 程序 例如， 文本 编辑 程序 ) 
所 替换 , 硬 连 接 是 否 仍 被 保留 根据 更 新 的 方式 而 定 。 如 果 是 打开 已 存在 的 文件 供 输 
出 及 重 写 人 ,其 inode 编号 保留 不 变 ， 则 硬 连接 仍 会 保留 。 然 后 ， 如 果 系统 崩溃 或 
磁盘 溢 满 产生 错误 , 则 在 更 新 期 间 可 能 导致 遗失 整个 文件 。 比较 小 心 的 程序 员 可 能 
就 会 在 临时 名 称 下 编写 新 的 版 本 ， 而 且 只 有 确定 复制 完成 时 ， 才 删除 原始 的 那个 
(因此 连接 计数 减 1) 并 更 改 副 本 的 名 字 。 剩 下 的 隐匿 性 很 快 , 所 以 针对 失误 的 窗口 
是 较 小 的 。 替 换文 件 会 产生 一 个 新 的 inode 编号 及 连接 计数 1， 并 切断 硬 连接 。 

我 们 测试 了 许多 文本 编辑 器 , 发 现 似乎 都 是 使 用 第 一 种 方式 , 保留 硬 连接 。emacs 
编辑 器 则 允许 在 两 种 方式 择 一 ( 注 22) 。 相 对 地 ， 如 果 你 编辑 或 重 写 的 文件 是 软 连 
接 , 那么 你 编 修 的 就 是 原始 数据 , 且 只 要 它 的 路 径 名 称 仍 未 改变 , 则 所 有 指向 它 的 


其 他 软 连接 ， 都 会 反映 此 更 新 过 的 内 容 。 





,将 变量 backup-by-copying-when-linked 设 为 非 -nil (non-nil), 及 backup-by- 
” copying 设 为 niil, 即 可 保留 硬 连接 。 可 参考 emacs 手 册 里 的 Copying versus Renaming，。 
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附录 了 B 





以 硬 连 接 而 言 ， 两 种 更 新 方式 都 可 能 导致 新 文件 的 所 有 者 与 组 改变 : 更 新 位 置 
(update-in-place) 会 保留 所 有 者 与 组 , 但 复制 与 更 名 (copy-and-rename) 则 会 将 
值 重 设 为 执行 此 操作 的 用 户 。 因 此 ,两 种 连接 的 行为 模式 在 文件 修改 之 后 时 常 是 不 
一 致 的 。 


再 来 看 看 目录 的 符号 连接 : 如 果 你 有 一 个 从 subair 到 /home/jones/somedir 的 
符号 连接 ,那么 当 你 将 文件 树 移 到 另 一 个 没有 /home/jones/somedir 的 文件 系统 
下 时 ， 连接 便 会 被 截断 。 


在 连接 里 通常 使 用 相对 路 径 比较 好 ， 而 且 是 只 有 在 目录 位 于 同 级 或 更 低级 的 情况 
下 : 所 以 从 subdir 到. ./anotherdir 的 符号 连接 ， 只 有 在 文件 树 至 少 比 被 移动 
的 文件 树 高 一 层 目 录 处 开始 才 会 被 保留 。 否 则 ， 连 接 会 被 切断 。 

切断 的 符号 连接 无 法 在 切断 当时 被 发 现 , 只 有 在 之 后 你 引用 此 连接 时 才 会 知道 这 
已 经 为 时 已 晚 。 你 的 电话 矫 也 可 能 出 现 类 似 问题 : 朋友 搬 了 家 没 通知 你 , 自 此 断 了 
联系 。 使 用 fina 命令 可 以 找 出 被 切断 的 连接 ，i 靖 参考 第 10 章 的 说 明 ，。 


符号 连接 到 目录 , 也 可 能 对 相对 性 目录 更 动产 生 问 题 ， 当 你 改变 符号 连接 的 父 目录 
了 时， 会 移 到 被 指向 的 目录 的 父 目录 ， 而 非 连 接 本 身 的 父 目录 。 


在 建立 文件 打包 时 ， 符 号 连接 会 有 问题 ， 有 但 有 时 , 打包 文件 应 
只 是 包括 文件 本 身 的 副本 而 不 是 连接 。 | 


文件 大 小 与 时 间 戳 的 变化 
每 个 文件 包括 的 inode 实 体 记录 包含 了 它 的 字 节 大 小 ， 如 果 文件 为 空 时 它 可 以 是 零 。 ls 
输出 的 宛 长 模式 ， 将 大 小 显示 在 第 5 栏 ; 


$ 18 -1 /bin/ksh 列 出 元 长 模式 的 文件 信息 
~IWXI-XI-X 1 root root 172316 2 06- < 21:12 YEN/KSh: 


GNU 版 本 的 1s 提供 - S 选项 ， 以 文件 大 小 递减 排序 列 出 : 


$ la -18 /bin | head -na 8 ” ” 显示 8 个 最 大 文件 ， 并 由 大 到 小 排列 
total 7120 
-IWXr-xXxr-X 
IWXI~-XI~<X 


rpm rpm | 1737960 2002-02-15 08:31 rpm 

root root 519964 2001-07-09 06:56 bash 

root root 472492 2001-06-24 20:08 ash.static 
root root 404604 2001-07-30 12:46 zsh 

root root “404604 2001-07-30 12:46 zsh-4.0.2 
root root 387820 2002-01-28 04:10 vi - 
root root 288604 2001-06-24 21:45 tcsh 


1 
e 
[a 
i 
~ 
[a 
1 
* 
FF UN Hb DP 


当 文 件 系统 使 用 空间 已 满 , 想 要 找 出 罪魁 祸首 时 ，-S 选 项 就 派 得 上 用 场 了 。 当然 ,如果 
你 的 1s 不 提供 此 选项 , 你 也 只 要 使 用 1s -1 files | sort -k5nr 便 能 得 到 相同 的 结果 。 
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注意 ， 如果 你 怀疑 某 个 正在 执行 的 进程 灌 爆 了 文件 系统 , 在 Sun Solaris 下 , 可 以 使 用 下 列 方式 找 
到 这 个 打开 中 的 大 文件 (如 果 你 想 看 到 的 不 只 是 属于 你 的 文件 ,请 以 root 的 身份 执行 ) : 


# 18 -18 /proc/*/fa/* 列 出 所 有 打开 的 文件 

-IrW--~----- 1 jones jones 111679057 Jan 29 17:23 /proc/2965/fdad/4 
-r--r--r-- 1 smith smith 946643 Dec 2 03:25 /proc/15993/fd/16 
= 上 smith smith. 835284 Dec 2 03:32 /proc/15993/fd/9 


本 例 中 ， 删 除 2965 可 能 就 能 删除 这 个 大 文件 一 至 少 你 知道 是 jones 引用 它 的 了 。 


GNU/Linux 也 有 /proc 这 样 的 工具 机 制 , 不 过 上 面 这 个 Solaris 的 解决 方案 在 GNU/Linux 
下 并 不 适用 ， 因 为 它 所 报告 的 文件 大 小 在 GNU/Linux 上 是 不 正确 的 。 


磁盘 可 用 空间 (disk-free) 命令 af 用 来 报告 当前 磁盘 的 使 用 情况 ,或 者 你 可 加 上 -i 选 
项 了 解 inode 的 使 用 情况 。 磁 盘 使 用 情况 命令 au 则 可 报告 个 别 目录 内 容 下 的 总 使 用 空 
间 , 或 辅 以 -s 选 项 输出 简洁 的 摘要 。 这 些 例子 在 第 10 章 里 都 有 。find 命 令 搭配 -mt ime 
与 -size 选 项 , 可 以 找 出 最 近 建立 的 或 大 小 不 寻常 的 文件 , 同样 请 参考 第 10 章 的 说 明 。 


在 1s 命令 下 使 用 -s 选项 可 显示 额外 的 开头 栏 位 ， 其 提供 文件 的 块 (block) 大 小 : 


$ 18 -1lgs /lib/lib* | head -n 4 以 元 长 模式 列 出 前 4 个 匹配 文件 的 信息 
2220 -r-xr-xr-t sys 2270300 Nov 1999 /lib/libc.so.1 

60 -r--r--r-- sys 59348 Nov 1999 /lib/libcpr.so 

108 -r--r--r-- sys 107676 Nov 1999 /lib/libdisk.so 

28 -r--r--r-- sys 27832. Nov 1999 /lib/libmalloc.so 


块 大 小 与 操作 系统 及 文件 系统 息息相关 : 为 了 找到 一 个 块 的 大 小 , 可 以 字 节 为 单位 的 文 
件 大 小 除 以 用 块 为 单位 的 文件 大 小 ， 然 后 进 制 成 2 的 次 方 ， 即 可 得 知 。 以 上 述 为 例 ; 我 
们 发 现 2270300/2220 = 1022.6， 所 以 其 块 大 小 为 22 = 1024 字 节 。 随 着 存储 设备 的 技 
术 越 来 越 精进 ,我 们 以 块 大 小 算出 来 的 值 可 能 与 它 所 呈现 在 设备 上 的 值 有 所 不 同 。 且 厂 
商 与 某 些 GNU 的 1s 版 本 也 不 一 致 ， 因此 有 时 以 此 法 取得 的 块 大 小 不 见 ,得 可 靠 一 除非 是 
在 同系 统 下 使 用 同一 个 1s 命令 作对 照 。 


Pppp 
信人 


注意 : 有 时 , 你 可 能 会 遇 到 块 小 到 有 点 奇怪 的 文件 : 像 这 样 的 文件 多 半 有 洞 (hole), 这 是 因为 使 
用 直接 访问 的 方式 写 和 人 字 节 在 指定 的 位 置 。 数据库 程序 就 常 这 么 做 ， 因 为 它们 是 以 松散 式 
的 表格 存储 在 文件 系统 里 。 文 件 系 统 下 的 inode 架构 ， 处 理 有 hole 的 文件 时 不 会 有 问题 ， 
但 对 于 读 取 这 样 文件 的 程序 而 言 ， 它 看 到 的 可 能 是 (想像 的 ) 磁盘 块 所 对 应 至 hole 的 一 连 
串 零 字 节 。 


复制 如 此 的 文件 会 以 实体 的 零 磁 盘 块 填 满 hole, 这 可 能 会 增加 文件 的 大 小 。 虽然 建立 原始 
文件 的 软件 不 会 感觉 到 它 , 但 它 是 提供 功能 齐备 的 备份 工具 所 需要 处 理 的 一 个 文件 系统 功 
能 。 GNU 的 tar 提 供 --sparse 选 项 以 请 求 检查 这 类 文件 , 不 过 其 他 的 tar 实例 则 不 提 
供 。 另 外 ，GNU 的 cp 也 支持 --sparse 选项 ， 以 处 理 这 类 带 有 hole 的 文件 。 
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使 用 管理 的 输出 /恢复 (dump/restore) 工具 , 可 能 是 在 复制 文件 树 时 , 唯一 可 避免 填 满 hole 
的 方法 了 。 各 系统 里 的 此 类 工具 都 有 很 大 的 差异 ， 所 以 我 们 在 本 书 中 不 做 讨论 。 





你 可 能 还 会 发 现在 最 后 两 个 范例 的 输出 上 有 个 地 方 不 同 , 时 间 惟 的 表示 方式 。 为 尽量 缩 
减 行 宽度 ,1s 通 常 是 以 Mn dd jp:mmm 表 示 最 近 6 个 月 内 的 时 间 惟 ,而 以 Mram dd yyyy 
表示 6 个 月 前 的 时 间 。 有 些 人 会 觉得 这 样 很 麻烦 ， 而 现行 许多 窗口 系统 都 已 经 没有 旧式 
ASCII 终 端 那 种 80 个 字符 的 行 限制 了 , 因此 这 种 做 法 已 经 不 是 那么 必要 。 不 过 大 部 分 的 
大 仍 认 为 太 长 的 行 会 很 难 阅读 , 且 近 期 的 GNU 1s 版 本 也 致力 于 将 显示 的 结果 保持 在 简 
短 的 样式 。 Ne 

GNU 的 1s 会 依 locale 的 设置 , 显示 近似 yyyy-mm-dd hh:mm:ss 这 样 的 格式 , 以 符合 MO 
8601:2000: Data elemenits and interchange formats- -Information interchange- 


人 of dates and times 的 定义 ， 不 过 就 像 先前 的 例子 会 去 除 秒 数 部 分 。 


GNU 的 1s 里 ， 选项 --ful1- cime 可 用 来 揭露 文件 系统 里 完整 的 时 间 长 记录 ， 如 第 10 
章 所 述 。 


其 他 的 文件 metadata 


剩 下 还 有 一 些 文件 的 属性 记录 在 inode 条 目 里 , 是 我 们 还 未 提 及 的 。 不 过 在 1s -1 的 输 
出 里 ， 还 看 到 的 部 分 就 只 有 文件 类 型 (file type) 了 ， 它 记录 在 每 行 的 第 一 个 字符 ， 就 
在 权限 的 前 面 。- ( 连 字号 ) 指 的 是 一 般 文件 、a 为 目录 ， 而 1 为 符号 连接 。 


这 三 种 是 我 们 在 一 般 目 录 下 常 看 到 的 ， 但 在 /aev 下 ， 你 还 会 遇 到 至 少 这 两 种 ; b 指 块 
设备 ，c 为 字符 设备 。 它们 都 与 本 书 无 关 。 


两 种 其 他 较 少 见 的 文件 类 型 ， 例如 p 指 的 是 命名 的 管道 (named pipe) ，s 指 的 是 Socket 
(一 种 特殊 的 网 络 连 接 )。Socket 为 较 高 级 的 范畴 ,本 书 不 作 介绍 。 命名 的 管道 则 在 程序 
与 Shell 脚本 里 偶尔 用 到 : 它们 可 以 允许 用 户 端 和 服务 器 端 通过 文件 系统 命名 空间 来 沟 
通 , 并 提供 将 一 个 进程 的 输出 导向 两 个 或 两 个 以 上 不 相关 进程 的 方式 。 它们 广义 化 一 般 
的 管道 ， 后 者 只 有 一 个 写 人 与 一 个 读 取 。 


GNU corewutils 包 里 的 stat 命令 会 显示 stat () 系 统 调用 的 结果 ， 回 传 文件 的 inode 信 
息 。 下 面 为 SGI IRIX 里 的 使 用 范例 ， 


$$ stat /bin/true ”报告 文件 的 inpde 信息 
File: ‘/bin/true' : | ; 
. Size: 312 Blocks: 8 i IO Block: 65536 regular file 
. Device: eeh/238d Inode: .380 有 Links: 1 
Access: {0755/-rwxr-xr-x), Uid: ( of root) Gid: ( ，0/ Sys) 


Access: 2003-12-09 09:02:56.572619600 -0700 
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Modify: 1999-11-04 12:07:38.887783200 -0700 
Change: 1999-11-04 12:07:38.888253600 -0700 


这 里 显示 的 stat 子 集 信息 ， 比 1s. 更 细微 。 . 
GNU 的 stat 也 支持 设计 更 精细 的 报告 ， 让 你 选择 其 中 的 子 集 输 出 。 例 如 , 软件 安装 包 
可 使 用 它们 ， 以 找 出 文件 系统 是 否 仍 有 足够 的 空间 可 执行 安装 。 详 见 stat 手册 页 。 
只 有 少数 的 UNIX 版 本 (FreeBSD、 GNU/Linux. NetBSD 与 SGI IRIX) 支持 原始 的 stat 
命令 。 这 里 举 三 个 例子 如 下 : | 
$ /usr/pin/stat /usr/bin/true reeBSD 5.0 ( 较 长 的 输出 ， 已 缩减 长 度 以 符合 解说 页 面 ) 


1027 1366263 -r-xr-xr-x 1 root wheel 5464488 3120 "Dec 2 18:48:36 2003" 
"Jan 16 13:29:56 2003" "Apr. 4 09:14:03.2003" 16384 8 /usr/bin/true 


$ stat -t /bin/true GNU/Linux .简洁 的 inode 信息 .. 
/bin/true 312 8 8led 0 0 ee 380 1 0 0 1070985776 241742458 941742458 65536 
$ /sbin/stat /bin/true SGI IRIX 系统 工具 程序 

/bin/true: 


inode 380; dev 238; links 1; size 312 a 
regular; mode is rwxr-xr-x; uid 0 (root}; gid 0 (sys) 
projid 0 st_fstype: xfs 

change time - Thu Nov 4 12:07:38 1999 <941742458> 
access time - Tue Dec ..9 09:02:56 2003 <1070985776> 
modify time - Thu Nov 4 12:07:38 1999 <941742458> 


UNIX 文件 的 所 有 权 与 隐私 权 议题 


我 们 已 提 及 太 多 与 文件 权限 相关 的 议题 , 让 你 了 解 如 何 控制 文件 与 目录 的 读 取 、 写 人 与 
执行 的 访问 。 你 可 以 ， 也 应 该 注意 文件 权限 的 选择 ， 以 掌控 能 访问 你 文件 的 有 哪些 人 。 


访问 控制 中 最 重要 的 工具 就 是 umask 命 令 了 , 因为 它 可 以 针对 接 下 来 建立 的 所 有 文件 限 
制 指定 的 权限 。 通常 你 会 使 用 软 认 值 , 而 它 是 设置 在 你 Shell 启动 时 所 读 取 的 文件 里 , 以 
类 似 sh 的 Shell 而 言 为 SHOME/ .profile 文 件 , 见 14.7 节 。 如 Shell 有 支持 ， 系 统管 理 
员 通 常会 在 对 应 的 系统 面 起 始 文件 内 放置 umask 的 设置 。 在 协力 合作 的 研究 环境 下 , 你 
应 选择 022 掩 码 值 ， 删 除 组 与 其 他 人 的 写 人 权限 。 以 学 生 使 用 的 环境 来 看 ，077 的 掩 码 
值 较 适 合 ， 可 剔除 所 有 除了 所 有 者 〈 与 root) 以 外 的 访问 。 


”需要 非 默 认 权限 时 ，Shell 脚本 应 于 开始 处 明白 地 直接 下 达 umask 命令 ， 这 个 操作 必须 
在 所 有 文件 建立 之 前 做 。 不 过 ， 像 这 样 的 设置 不 会 影响 在 命令 行 上 被 重 定向 的 那些 文件 ， 
因为 它们 在 脚本 起 始 时 ， 已 被 打开 。 


第 二 个 重要 的 工具 就 是 chmoad 命 令 T: 你 应 该 好 好 了 解 它 。 即便 是 在 开放 所 有 大 读 取 的 
公开 环境 下 ， 文 件 与 目录 仍 应 多 作 限 制 。 包 括 邮 件 文件 、 网 页 浏览 器 历史 记录 与 缓存 、 
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私有 信件 、 财 务 与 个 人 数据 、 营 销 计划 等 。 邮 件 客 户 端 与 浏览 器 通常 使 用 的 是 默认 的 限 
制 性 权限 , 但 你 以 文本 编辑 器 建立 的 文件 就 必须 自行 使 用 chmod 变 更 了 。 如 果 你 想 要 更 
谨慎 行事 , 那么 请 不 要 使 用 文本 编辑 程序 建立 文件 : 你 可 以 先 以 touch 建 立 空 文件 , 执 
行 chmod 后 再 编辑 它 。 


你 应 该 还 记得 , 系统 管理 员 拥 有 你 文件 系统 的 完整 访问 权 , 他 可 以 读 取 任何 文件 。 虽 然 
大 部 分 的 系统 管理 员 认为 未 经 文件 所 有 者 的 允许 , 查看 用 户 文件 是 不 道德 的 , 但 部 分 组 
织 却 认为 ， 所 有 计算 机 文件 , 包括 电子 邮件 , 都 属于 公司 财产 , 应 24 小 时 监控 。 这 点 的 
合法 性 其 实 很 模糊 ， 且 世界 各 国标 准 不 一 。 


加 密 与 数据 安全 性 


如 果 你 希望 存储 的 文件 除了 你 之 外 (几乎) 没有 任何 人 可 以 读 取 , 那么 就 需要 用 到 
加 密 。 由 于 各 国政 府 的 输出 条 例 将 加 密 工 具 视 为 武器 , 因此 大 部 分 UNIX 厂 商 不 会 
在 它 的 标准 发 布 包 里 随 附 加 密 软 件 。 在 你 开始 安装 网 络 上 找到 的 或 是 商用 的 加 密 软 
件 之 前 ， 我们 有 以 下 几 点 建议 : 


安全 性 是 一 个 程序 ， 而 非 产 品 。 有 本 书 可 以 让 你 有 更 深入 的 了 解 : 《Secrets 
and Lies: Digital Security in a Networked World》(Wiley ) 。 

你 是 否 曾 忘记 你 的 加 密 密 钥 ， 或 是 离职 员工 留 下 的 密 钥 不 正确 ， 这 都 可 能 漏 
和 失 你 的 数据 : 良好 的 加 密 方式 ， 通常 无 法 在 你 要 的 时 间 之 内 破解 。 


就 像 员工 离职 你 可 能 会 换 门 镇 一样， 你 应 该 相信 使 用 前 职员 的 加 密 密 钥 是 不 
可 靠 的 ， 你 应 该 使 用 新 的 密 钥 重新 加 密 曾 以 先前 的 密 钥 加 密 过 的 所 有 文件 。 


。 “如 果 加 密 文 件 提升 安全 性 ， 使 得 用 户 很 不 方便 ， 它 们 可 能 会 直接 停 用 加 密 。 


如 果 你 想 了 解 更 多 与 加 密 算法 相关 的 历史 ， 建 议 你 从 《The Code Book: The 
Evolution of Secrecy from Mary, Queen of Scots, to Quantum Cryptography》 
(Doubleday) 这 本 书 开始 。 如 果 你 觉得 很 有 兴趣 , 想 了 解 更 多 算法 的 细节 ,你 可 以 
继续 看 《Applied Cryptography: Protocols, Algorithms, and Source Code in C》 
(Wiley), http:/www.math.utah.edu/pub/tex/bib/index-table.html 里 , 还 有 更 多 相 
关 学 术 议题 的 参考 文献 供 你 研究 。 





最 后 , 在 这 个 网 络 计算 机 的 时 代 ， 你 很 可 能 会 被 网 络 与 文件 系统 或 是 操作 系统 分 开 ， 除 
非 你 的 网 络 通信 确定 相当 安全 , 否则 你 的 数据 其 实 很 危险 。 无 线 网 络 的 弱点 又 更 多 , 软 
件 可 以 无 声 无 息 地 窃听 你 的 网 络 通信 ，, 利用 现行 无 线 加 密 通信 协议 的 弱点 , 解 出 加 密 的 
通信 数据 。 远 端 访问 你 的 电子 邮件 , 还 有 互动 式 的 信息 系统 ， 可 能 都 是 木 安全 的 。 如 果 
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你 还 在 使 用 telnet ,或 非 匿 名 式 的 ftp 连 接 计 算 机 ,请 立 中 切换 为 安全 的 Shell (secure 
Shell) ( 注 23)。 旧 式 的 这 些 通信 软件 会 以 明码 文本 传递 所 有 数据 ， 包 括 用 户 名 称 与 密 
码 ， 网 络 攻 击 者 可 以 轻松 地 取得 这 类 数据 。secure Shell 软 件 使 用 健全 的 公 和 钥 加 密 ， 完 
成 安全 交换 数据 的 操作 , 它 会 以 随机 产生 长 的 加 密 密 钥 与 其 他 许多 较 简 单 与 较 快 的 加 密 
算法 一 起 使 用 。 


用 户 的 数据 会 等 到 加 密 通 道 建立 才 开始 传送 , 而 标准 的 加 密 方法 也 经 过 深度 的 考虑 , 普 
遍 相 信和 是 十 分 安全 的 。 攻 击 者 看 到 你 的 封包 时 ,是 经 过 随机 字 节 组 流 加 密 后 的 样子 ,不 
过 来 源 与 目地 端 地 址 都 看 得 到 , 也 可 能 拿 来 分 析 。secure Shell 也 会 为 X Window System 
的 数据 建立 安全 通道 , 不 过 如 果 攻 击 者 在 你 和 你 的 计算 机 间 动 手脚 , 这 么 做 也 是 于 事 无 
补 的 。 网 吧 、 键 盘 探测 、 无 线 网 络 等 等 ， 都 可 能 让 攻击 大 行 其 道 ， 而 令 secure Shell 无 
用 武之 地 。 


UNIX 扩 展 文件 名 惯例 


有 些 操作 系统 , 使 用 主要 名 称 `、 一 个 点 号 , 及 1~3 个 字符 的 文件 类 型 或 文件 扩展 作为 文 
件 名 的 形式 。 这 些 扩展 有 其 重要 目的 : 指出 文件 内 容 属 于 哪 种 特定 的 数据 类 型 。 例 如 ， 
扩展 文件 名 为 pas 指 的 是 文件 内 容 为 Pascal 的 源 代码 , :而 exe 指 的 则 为 二 进 制 可 执行 
文件 。 I 


这 里 并 不 保证 文件 扩展 必 会 反映 文件 内 容 , 不 过 大 部 分 用 户 觉得 这 么 做 很 好 用 , 便 遵循 
这 一 惯例 。 J 


UNIX 也 提供 不 少 的 通用 文件 扩展 , 但 UNIX 的 文件 名 并 未 强 制 必须 有 一 个 点 号 。 有 时 ， 
文件 扩展 只 是 个 惯例 而 已 (对 大 部 分 的 脚本 语言 来 说 ) ， 但 编译 器 通常 会 要 求 特 定 的 广 
件 扩展 及 使 用 主 文件 名 截 去 扩展 部 分 )， 以 形成 其 他 相关 文件 的 名 称 。 较 常见 的 几 种 
扩展 见 表 B-1。 \ z i 





表 B-1: 常见 的 UNIX 文件 扩展 

i 数字 的 1。 手册 页 的 Section 1 (用 户 命令 ) 
a | 程序 库 打包 文件 

awk. . awk 语言 原始 文件 








注 23: “例如 htip://www.columbia.edu/kermit/、 hitp://Wwww.ssh.com/ 5 http://wwiv:openssh.org/。 
要 更 深入 了 解 SSH， 可 参考 《The Secure Shell: The Definitive Guide》: (O'Reilly) 一 书 。 
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和 人 


人 ee A pe 
以 A 





. ee 


c C 语言 原始 文件 

cc C cpp cxx C++ 语言 原始 文件 

eps ps ”PostScript 页 面 描 述 语 言 原始 文件 

Fortran 77 语言 原始 文件 

gz 由 gzip 压 篇 的 文件 

£90 ”Fortran 90/95/200x 语言 原始 文件 

h CC 语言 标 头 文件 
html htm 超 文本 标记 语言 (HyperText Markup Language) 文件 
o 目标 文件 (来 自 大 部 分 编译 程序 语言 

paf 可 移植 式 文件 格式 文件 

S :汇编 语言 源 文 件 (例如 , .编译 器 的 输出 ， i S) 
sh ” “Bourne 系列 Shell 脚本 

SO . 共享 对 象 库 (部 分 系统 称 之 为 动态 载 人 库 ) 

tar 磁带 打包 文件 (产生 自 tar 工具 程序 ) 

,Vv | cvs 与 rcs 的 历史 文件 

z 以 pack 压缩 的 文件 〈 极 少见 ) 

Z 以 compress 压缩 的 文件 


此 表格 最 明显 的 就 是 少 了 exe。 虽然 许多 操作 系统 都 使 用 它 作为 二 进 制 可 执行 程序 的 扩 
展 文 件 名 ， 且 允许 在 使 用 程序 时 ,省略 扩展 文件 名 。 但 UNIX 本 身 并 未 在 可 执行 文件 上 
i 
扩展 。 


有 些 UNIX 文 本 编辑 程序 提供 用 户 建 立 临时 备份 文件 , 这 么 一 来 ,就 算是 在 编辑 较 入 的 
通信 期 中 , 也 能 每 隔 一 段 时 间 就 将 文件 记录 在 文件 系统 里 。 对 这 类 备份 文件 的 命名 , 使 
用 惯例 有 几 种 : 将 (#) 或 (~) 字符 前 置 于 文件 开头 或 后 置 于 文件 结尾 ， 或 以 ~ 加 上 数 
字 的 方式 编排 , 例如 .~1~、.~2~ 等 等 。 后 者 的 文件 名 产生 编号 方式 模仿 其 他 文件 系统 
所 提供 的 , UNIX 本 身 并 未 提供 这 样 的 功能 , 不 过 其 实 UNIX 的 文件 命名 规则 相当 弹性 ， 
用 户 可 以 自行 这 么 设置 。 


文件 产生 编号 在 其 他 系统 下 可 保留 文件 的 多 个 版 本 , 而 省 略 编号 通常 指 的 就 是 最 高 编号 。 
UNIX 提供 更 好 的 方式 ， 处 理 文件 版 本 的 历史 记录 : 通过 软件 工具 ， 保 留 与 主 文件 不 同 
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部 分 的 历史 记录 ， 并 附 上 注释 性 的 描述 ， 说 明 改 变 部 分 。 这 类 的 包 一 开始 是 AT&T 的 
Source Code Control System (sccs)， 现今 则 为 Revision Control System (rcs) ( 见 
附录 C“ 其 他 程序 ”) 与 Concurrent Versions System (cvs) 较 常见 。 


小 结 


我 们 带 你 将 UNIX 的 文件 系统 完整 看 过 一 遍 , 现在 ,你 应 该 对 下 面 这 些 功 能 已 经 相当 熟 
悉 了 : 


文件 为 0 至 多 个 8 位 字 节 的 流 ， 文 本 文件 里 的 行 只 能 以 换行 字符 来 标示 行 界 限 。 


字 节 通常 以 ASCII 字 符 解释 ,但 UTF-8 编号 与 Unicode 字符 集 让 UNIX 文 件 系统 、 
管道 与 网 络 通信 , 能 支持 全 世界 书写 世界 上 数 百 万 种 不 同 字符 , 且 大 部 分 现存 文件 
或 软件 也 能 有 效 使 用 。 


文件 有 属性 , 例如 时 间 戳 、 所 有 权 与 权限 。 这 可 以 让 我 们 更 有 效 地 设置 访问 控制 层 
级 及 隐私 权 , 提供 比 其 他 桌面 环境 操作 系统 更 好 的 支持 , 并 剔除 大 部 分 计算 机 病毒 
的 问题 。 

可 以 在 目录 的 单一 节点 设置 适当 权限 ， 控 制 整 个 目录 树 的 访问 。 


极 大 的 文件 几乎 不 会 造成 什么 问题 , 而 在 现行 技术 下 ,新 的 文件 系统 设计 也 能 容许 
越 来 越 大 的 文件 。 


文件 名 与 路 径 名 称 的 最 大 长 度 ， 已 超出 你 会 用 到 的 最 大 长 度 。 


简明 的 层级 式 目录 架构 , 辅 以 斜 杠 分 隔 的 路 径 组 成 部 分 , 搭配 mount 命令 的 使 用 ， 
几乎 可 以 拥有 无 限 大 小 的 逻辑 式 文 件 系统 。 


尽 可 能 地 将 所 有 数据 看 成 文件 , 且 鼓 励 这 么 做 ， 可 以 简化 人 为 的 数据 处 理 与 使 用 。 


文件 名 可 使 用 NUL 与 斜 杠 以 外 的 所 有 字符 , 但 实务 上 , 为 了 可 移植 性 、 可 靠 度 , 及 
Shell 通 配 字符 的 考虑 ， 大 大 地 限制 了 应 该 可 被 使 用 的 字符 。 


文件 名 的 字母 大 小 写 将 视 为 不 同 (除了 Mac OS X 的 非 UNIX HFS 文件 系统 )。 


虽然 文件 系统 本 身 并 未 规定 文件 名 结构 , 但 许多 程序 仍 预 期 文件 名 应 有 .加 上 扩展 
名 称 ， 并 利用 此 扩展 建立 相关 文件 。Shell 通过 它们 对 通 配 字符 样式 的 支持 ， 如 
ch01.* 与 *.xml, 来 鼓励 此 实现 。 


文件 名 存储 在 目录 文件 里 , 而 与 文件 相关 的 信息 、 文件 metadata 则 另存 储 于 inode 
实体 记录 中 。 


在 相同 文件 系统 内 的 文件 与 目录 要 移动 或 更 名 是 相当 快 的 ,因为 只 有 它们 包含 的 目 
录 实 体 需 被 更 新 ， 文 件数 据 块 本 身 则 不 会 被 访问 。 
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*“ 硬 连 接 与 软 连接 允许 同一 实体 文件 拥有 多 个 名 称 . 硬 连 接 只 限 在 单一 实体 文件 系统 

忆 ， 进 才能 做 ,但 软 连接 则 可 指向 逻辑 文件 系统 的 任 一 位 置 , -… 

。 ”inode 表 格 大 水 为 文件 系统 安装 时 就 已 畴 定 , 所 以 文件 系统 即使 仍 有 瞧 间 置 放 文件 
数据 ， 也 可 能 出 现 已 满 的 状态 。 | 
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附录 C 


重要 的 UNIX 命 








现今 UNIX 系统 都 随 附 相当 多 命令 。 很 多 是 特殊 用 途 ， 也 有 很 多 是 日 常 处 理 使 用 的 , 它 
们 都 能 应 用 在 交互 模式 下 ， 或 写 在 Shell 脚本 里 。 不 过 ， 我 们 不 可 能 包括 得 了 系统 里 所 
有 的 命令 ， 也 没有 这 么 做 的 必要 ( 像 《UNIX in a Nutshell》 的 书籍 对 此 部 分 有 非常 深 
人 的 描述 ) 。 

我 们 仍 尽 可 能 地 找 出 有 用 的 命令 , 也 就 是 UNIX 的 用 户 或 程序 设计 人 员 首先 应 了 解 的 那 
些 ， 简 单 做 个 介绍 。 这 里 也 可 能 包括 早期 UNIX 使 用 的 旧式 命令 。 本 附录 只 是 当 你 有 志 
于 成 为 UNIX 的 开发 者 时 ,建议 你 研究 的 命令 列表 。 为 求 简洁 ,我 们 重新 做 了 分 类 ， 用 
表 这 些 命令 列表 ， 并 进行 简单 的 说 明 。 


Shell 与 内 置 命令 


首先 ， 我 们 先 了 多 Bourne Shell 的 部 分 ， 特别 是 POSIX 整理 过 的 那些 。bash 与 ksh93 
都 为 POSIX 兼容 ， 而 另外 还 有 一 些 Shell 在 语法 上 也 与 Bourne Shel] 一 致 


bash | GNU Project 的 Bourne-Again Shell。 

ksh Korn Shell 一 一 原始 版 本 或 分 支 体系 版 本 ， 视 操作 系统 而 定 。 
paksh Public Domain Korn Shell。 

sh 原始 Bourne Shell， 特 别 是 在 商用 的 UNIX 系统 上 。 

‘ZSsh Z-Shell, 


你 应 该 了 解 Shell 内 置 命 令 的 运作 方式 : 


在 当前 Shell 下 ， 读 取 与 执行 给 定 的 文件 。 
break 切断 for、select、until 或 while 循 环 。 
cd 更 改 当前 的 目录 。 
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command 
cont inue 
eval 
exec 


exit 
export 
false 
getopts 
read 
readonly 
return 
,0t 
shift 
test 
trap 
true 
type 
typeset 
ulimit 


unset 


附 水 CG 


规避 函数 的 查找 ， 直 接 执 行 正规 的 内 置 命令 。 

开始 for、select、until, 或 while 循 环 的 下 一 个 重复 。 

将 给 定 的 文本 视 为 Shell 命令 。 

无 参数 的 情况 下 ; 改变 Shell 打开 的 文件 。 如 带 有 参数 ， 则 以 其 他 程序 置 
换 Shell。 

退出 Shell 脚本 ， 可 选 地 带 有 特定 的 退出 码 。. 

将 变量 导出 到 接 下 来 的 程序 环境 中 。 

什么 事 也 不 做 ， 指 非 成 功 的 状态 。 用 于 Shell 循环 中 。 

处 理 命令 行 选项 。 

将 输入 行 读 进 一 个 或 多 个 Shell 变量 里 。 


， 将 变量 标记 为 只 读 ， 例 : 不 可 更 改 的 。 


返回 自 Shell 函数 而 来 的 值 。 

显示 Shell 变量 与 变量 值 、 设置 Shell 选 项 、 设置 命令 行 参数 ($1、$2、…)。 
一 次 移动 一 个 或 多 个 命令 行 参 数 。 

计算 表达 式 ， 检 测 其 为 字符 串 、 数 字 或 文件 属性 相关 的 。 


管理 操作 系统 信号 ; 


什么 事 也 不 做 ， 指 成 功 的 状态 。 用 于 Shell 循环 中 。 
指出 命令 的 特性 〈 关 键 字 、 内 置 命令 、 外 部 命令 等 等 )。 
声明 变量 与 管理 它们 的 类 型 与 属性 。 

设置 或 显示 系统 对 每 个 进程 所 加 诸 的 限制 。 

删除 Shell 变量 与 函数 。 


下 列 为 编写 日 常 处 理 的 Shell 脚本 的 好 用 命令 : 


basenarme 
dirname 
env 

id 

date 
who 
stty 


文本 处 理 


显示 路 径 名 称 的 最 后 元 件 ,并 可 选用 地 删除 副 文 件 名 。 主 要 用 于 命令 替换 。 
显示 除了 路 径 名 称 最 后 组 成 部 分 以 外 的 所 有 信息 。 ,主要 用 于 命令 替换 。 
处 理 命令 的 环境 。 


显示 用 户 与 组 ID 及 名 称 信息 。 


显示 现在 的 日 期 与 时 间 ， 可 选用 地 受用 户 提供 的 格式 字符 串 所 控制 。 
显示 已 登录 的 用 户 列表 。 
处 理 当 前 终端 设备 的 状态 。 


下 面 的 命令 是 做 文本 处 理 用 。 


awk 
cat 


cmp 


优雅 又 实用 的 程序 语言 ， 为 许多 大 型 Shel1 脚本 的 重要 组 成 部 分 。 
连接 文件 。 
简单 的 文件 比较 程序 。 
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dd 


echo 


egrep 


expand 
fgrep 


fmt 
grep 


iconv 
join 


less 


more 
pr 
printf 
sed 
sort 


spell 


tee 
tr 
unexpand 


uniqg 


文件 


剪 下 选 定 的 列 或 字段 。 : 

阻 绝 与 解除 阻 绝 数 据 的 专门 程序 ,也 可 执行 ASCII 与 EBCDIC 之 间 的 转换 。 
dd 在 产生 设备 文件 原貌 的 副本 时 特别 好 用 。 和 需要 特别 注意 的 是 , 执行 字符 
集 转换 时 使 用 iconv 较为 合适 。 

将 参数 打印 到 标准 输出 。 

扩展 的 grep。 信用 护 民 正则 如 汉 二 VEXIended Regular Expressions; ERE) 
进行 匹配 。 : 

展开 制 表 字 符 与 空格 字符 








快速 greps 此 程序 使 用 与 grep 不 同 的 算法 匹配 固定 字符 串 。 大 部 分 的 
“过 并 非 全 部 。 
将 文本 格式 化 为 段落 的 简单 工具 。 


源 自 原始 的 ed 行 编辑 命令 9g7re/p,“ 全 局 性 匹配 正则 表达 式 并 打印 ”使 
用 基本 正则 表达 式 (Basic Regular Expressions; BREs) 进行 匹配 。 

一 般 用 途 的 字符 编码 转换 工具 。 

自 多 个 文件 结合 匹配 的 记录 。 


. 设计 精良 的 交互 式 分 页 (pager) 程序 用 以 于 终端 上 查看 信息 , 一 次 显示 屏 


幕 所 能 显示 的 内 容 (页 )。 现 已 有 GNU Project 提 供 此 程序 ， 其 名 称 为 对 
应 的 more 程序 双关 语 。 . : : 

原始 的 BSD UNIX 交互 式 分 页 程序 。 

将 文件 格式 化 ， 供 行 打 打 印 机 使 用 。 

echo 的 精装 版 ， 提 供 要 被 打印 参数 的 控制 方式 。 


， 流 编辑 器 ， 以 ed 行 编辑 器 的 命令 集 为 基础 。 


排序 文本 文件 。 命 令 行 参数 提供 排序 键 值 的 指定 与 优先 级 控制 。 
批 次 拼 字 检查 程序 。 你 也 可 以 使 用 Snel ispell 封装 成 名 为 spell 


的 Shell 肢 本。 


将 标准 输入 拷贝 到 标准 输出 ， 或 到 一 至 多 个 指名 的 输出 文件 。 
转换 、 删 除 或 减少 重复 字符 的 执行 。 
将 空格 字符 转换 成 适当 数量 的 制 表 字 符 。 


删除 或 计算 已 排序 输入 中 的 重复 行 。 


计算 行 、 单 词 、 字 符 或 字 节 


与 文件 处 理 相 关 的 命令 : 


bzip2，bunzip2 “ 极 高 品质 的 文件 压缩 与 解压 缩 。 


chgrp 


chmod 


更 改 文件 与 目录 的 组 。 
更 改 文件 与 目录 的 权限 (模式 )。 
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附录 CC 





chown 
cksum 
comm 
cp 

df 


”Qi 


du 
file 
fina 


gzip, gunzip 
head 


locate 


ls 


md5sum 


mktemp 
od 
‘patch 
pwd 
rm 
rmdir 
Stzings 
tail 
tar 
touch 
umask 


Zip, unzip 


进程 


以 下 为 建立 、 


at 
batch 


GEON 





更 改 文件 或 目录 的 所 有 权 。 
显示 文件 的 校 验 和 (checksum)、POSIX 标准 算法 。 

显示 或 省 略 两 个 排序 后 的 文件 之 间 具 有 了 唯一 性 或 共有 的 行 。 
复制 文件 与 目录 。 
显示 可 用 磁盘 空间 。 
比较 文件 ， 显 示 蒜 差异 。 
显示 文件 与 目录 所 使 用 的 磁盘 块 。 
通过 文件 开头 部 分 的 检查 ， 判 断 文件 里 的 数据 类 型 。 
向 下 一 个 或 多 个 目录 阶层 ， 寻找 匹配 于 指定 条 件 的 文件 系统 对 象 ( 文 
件 、 目 录 、 特 殊 文件 ) 。 
高 品质 的 文件 压缩 与 解压 缩 。 
显示 一 个 或 多 个 文件 的 前 产 行 - 
以 文件 名 称 在 系统 里 查找 一 文件 。 此 程序 使 用 定期 自动 重建 的 文件 
数据 库 中 进行 查找 。 
列 出 文件 。 可 使 用 选项 控制 要 显示 的 信息 。 
We Message Digest 5 (MD5) 算法 求 出 校 验 
建立 独 一 无 三 的 临时 文件 ， 并 显示 其 名 称 。 非 所 有 系统 都 可 使 用 。 
八进制 输出 ; 以 八进制 :十 六 进 制 或 作为 字符 数据 来 打印 文件 内 容 。 
通过 读 取 diff 的 输出 ， 将 给 定 的 文件 更 新 为 新 版 本 。 
显示 当前 的 工作 目录 。 通 常 内 置 在 现代 的 So 

删除 文件 与 且 录 。 

只 删除 空 目录 。 
查找 二 进 制 文件 中 可 打印 的 字符 串 ， 并 显示 它们 。 
显示 文件 的 最 后 4 行 。 加 上 -f 则 继续 打印 (成 长 ) 文件 的 内 容 。 
磁带 打包 程序 。 现 常 被 拿 来 作为 软件 发 布 的 格式 。 
更 新 文件 的 修改 或 访问 时 间 。. 
设置 默认 的 文件 建立 权限 掩 码 。 
文件 打包 与 压缩 /解压 缩 程 序 。ZIP 格式 可 使 用 于 多 种 操作 系统 下 ， 
相当 具有 可 移植 性 。 


删除 ， 或 管理 进程 所 使 用 的 命令 : 


在 指定 时 间 执 行 工作 。at 调 度 的 工作 只 执行 一 次 , 而 cron 则 为 定期 执行 。 
在 系统 负载 较 不 忙碌 上 时， 执行 工作 。 
在 指定 时 间 执 行 工作 。 
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编辑 每 个 用 户 的 “cron 表 格 ” 文件 ,指定 应 执行 哪些 命令 于 何 时 执行 。 


crontab 
fuser 寻找 正在 使 用 特定 文件 或 socket 的 进程 。 
kill 传送 信号 到 一 或 多 个 进程 。 
nice 在 进程 执行 前 ， 更 改 其 优先 级 。 | 
ps 进程 状态 。 显示 与 正在 执行 中 进程 有 关 的 信息 顷 
renice 进程 已 被 启动 后 ， 更 改 其 优先 级 。 
sleep 停止 执行 一 段 指 定 的 秒 数 。 
top 交互 式 显示 系统 上 密集 使 用 CPU 的 工作 。 
wait Shell 内 置 命令 ， 等 待 一 个 或 多 个 进程 完成 。 
xargs 读 取 标准 输入 上 的 字符 串 ， 作 为 参数 ， 尽 可 能 地 传递 给 指定 的 命令 。 多 半 
会 搭配 find 使 用 。 

其 他 程序 

还 有 些 其 他 范畴 的 命令 : 
cvs Concurrerit Versions System， 功 能 强大 的 源 代 码 管理 程序 。 
info GNU Info 系统 ， 供 在 线 文件 浏览 使 用 。 
locale 显示 可 用 的 locale 相关 信息 。 
logger 通常 是 通过 sysiog(3)， 传 送信 息 到 系统 日 志文 件 。 
lp, lpr 将 打印 缓冲 区 文件 传送 给 打印 机 。 

~ lpg 显示 正在 处 理 中 与 在 队列 等 待 中 的 打印 工作 列表 。 
mail ”传送 电子 邮件 。 
make 控制 文件 的 编译 与 重新 编译 。 
man 显示 命令 、 程 序 库 函数 、 系 统 调用 、 设 备 、 文件 格式 与 管理 性 命令 的 在 线 
手册 页 。 

scp 安全 进行 文件 的 远 端 复制- a 
ssh 安全 的 Shell。 在 执 进 程序 或 交互 式 登录 的 机 器 之 间 提供 加 窗 的 连接 。 
upt ime 显示 系统 已 开机 多 久 及 其 负载 信息 。 


在 其 他 种 类 中 ， 针 对 Revision Control System (RCS): 的 相关 命令 如 下 : es 


Co 

co 

rcs 
rcsdiff 
rlog 


签 入 文件 到 RCS。 
自 RCS 中 签 出 文件 。 

在 RCS 控制 下 处 理 文件 。 

对 RCS 控制 下 的 文件 的 两 个 不 同 版 本 ， 执 行 aiff。 
为 一 至 多 个 RCS 所 管理 的 文件 ， 打 印 签 和 人 (check-in) 日 志 。 
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参考 书目 


UNIX 程序 员 的 手册 


l. 《UNIX Time-sharing System: UNIX Programmers Manual), ‘Seventh Edition, 
Volumes 1, 2A, 2B. Bell Telephone. Laboratories, Inc,, January 1979. 


些 是 第 7 版 (Seventh Editivon) UNIX 系统 的 参考 手册 (Volume 1) 及 描述 性 报 
告 (Volumes 2A 此 2B)，UNIX 系统 第 7 版 是 所 有 当前 商用 UNIX 系统 的 直属 祖 
它们 由 Holt Rinehart & Winston 出 版 ， 但 是 现在 已 经 很 久未 再 印刷 了 。 然 而 ， 它 
们 在 Bell Labs 网 站 有 在 线形 式 ， 采用 的 格式 有 troff、PDF 及 PostScript。 参 考 
htip://plan9.bell-labs.com/7thEdMan, . 


2. “你 的 UNIX 程序 设计 手册 。 最 启发 性 的 指导 书 之 一 ， 你 可 以 从 头 沪 到 必 ( 注 1) 
( 当 UNIX 系统 已 经 长 大 , 这 会 比 以 前 更 为 困难 )。 如 果 你 的 UNIX 厂商 将 它 的 文件 
印刷 出 书 ， 则 会 较 容易 些 。 否 则 ， 需 要 从 Seventh Bdition 手册 开始 ， 然 后 也 需要 

”阅读 你 的 本 地 端 文件 。 | 上 


使 用 UNIX 思路 进行 程序 设计 


我 们 期 待 此 书 已 经 帮助 你 用 现代 文字 学 习 “ 思 考 UNIX”。 此 列表 的 前 两 本 书 是 UNIX “ 工 
具 箱 ”程序 设计 方法 论 的 原始 展现 。 第 3 本 书 检查 在 UNIX 下 可 用 的 、 更 广 的 程序 设计 





注 1: 。 在 我 作为 合同 程序 员 的 某 个 夏 日 ,我 用 几 次 午餐 的 时 间 从 头 至 尾 地 阅读 了 这 本 手册 。 没 
想到 我 在 那么 组 的 时 间 里 学 到 这 么 多 知识 。 
A488 . 
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工具 。 第 4 本 与 第 5 本 是 一 般 性 的 程序 设计 图 书 ， 汪 非常 值得 阅读 。: 我 们 注意 到 由 Brian 
Kernighan 编写 的 任何 书籍 都 值得 仔细 阅读 ， 通 常 是 要 读 许 多 遍 。 


让 


注 2: 


~ KSoftware Toels》， Brian W: Kernighaii and P. J. Plaiiger Addisdn- ly Reading, 
MA, U.S.A., 1976. ISBN 0-201-03669-X. 


一 本 展现 相当 于 UNIX grep、sort、ed 等 程序 设计 与 源 代 码 的 很 棒 书 籍 ( 注 2)。 
其 程序 使 用 Ratfor (Rational Fortran) ， 是 具有 仿 C 控制 结构 的 Foriran 预 处 理 器 。 


《Software Tools in Pascal),. Brian W. Kernighan and P. J. Plauger. Addison- 


Wesley, Reading, MA, U.S.A., 1981, ISBN 0-201-10342-7. 
前 一 本 书 转 成 Pascal 版。 仍然 值得 阅读 ， pascal 提供 了 许多 Fortran 没有 的 事情 。 


‘(The UNIX':Programming. Environment)》., Brian:W. Kernighan and Rob Pike. 


Prentice-Hall, Englewood Cliffs, NJ, U.S.A., 1984. ISBN 0-13-937699-9.(hardcover), 


.0-13-937681-X (paperback).. 


本 书 的 焦点 在 UNIX, 并 在 该 和 环境 中 使 用 工具 ， 特别 地 心 增加 重要 的 题材 在 Shell、 
awk 及 lex 的 使 用 上 。 .参考 htip: /em.bell-labs.com/cm/cs/upes 


《The Elements of Programming Style), .Second Edition, 了 Brian.W， i and P. 


J. Plauger. McGraw-Hill, New York,,NY, U.S.A.;:1978. .ISBN.0-07-034207.-5. 


Strunk && White 有 名 的 《The Elements of Style》 之 后 的 经 典 书籍 ,本 书 描述 可 以 
用 在 任何 环境 的 优良 程序 设计 实务 。 ne 
《The Practice of Programming)》,. Brian.W. Kernighan:and. Rob .Pike. Addison- 
Wesley Longman, Reading, MA,.U,S.A., 1999. ISBN .0-201.61586-X,. ... 

与 前 一 部 书 相 似 , 但 具有 更 强 的 技术 性 。 参考 UP 


《The Art of UNIX Programming》，Eric S. Raymond. Addison-Wesley, Reading, 
MA， U.S. A., 2003. ISBN 0-13- 1006 4. | 


+ 


KProgramming pearis), Firét Edition, Jon Louis Bentiey. Pe -Wealey Reading 


MA, U.S.A., 1986, ISBN 0-201-10331-1. 


《Programming Pearls》， Second Edition; Jon Louis Bentiy, Adidison- -Wesley 


‘Reading; MA; U.S.A.,2000. ISBRNi0:201-65788-0， +. + 


定 .1 涝 


参考 http:/www.cs.bell-labs. com/em/es/pearls/ 


《More Programming Pearls: Confessions of a Coder》 ,Jon Louis Bentley. Addison- 
Wesley, Reading, MA, U.S.A., 1988. ISBN 0-201-11889-0.. .. 


这 本 书 长 久 地 改变 了 我 的 生活 。 
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' Bentley 编写 的 象征 UNIX 精神 的 优秀 书籍 ， 且 具有 极 少 语言 、 算 法 设计 ， 与 更 多 
的 美妙 范例 。 这 些 应 该 是 在 每 个 正规 程序 员 的 书架 上 。 

10.. Linux and the UNIX Philosophy), Mike Gancarz. Digital Press, Bedford, MA, 
U.S.A., 2003. ISBN 1-55558-273-7.. ， 


Awk and Shell 
1: (The AWK Programiming Language’, Alfred V. Aho: Brian W. Kernighan, and 


Peter J. Weinberger. Addison- Wesley, Reading, MA, U.S.A., 1987. ISBN 0-201- 
.07981-X. 


}". awk 和 柱 当 借 得 全 祖 要 http://cm:bellzlabs.com/em/cs/ 


. awkbook, 


《Effective awk Programming), Third Edition, Arnold Robbins. O’ ei So 
“CA; U.S.A.,; 2001. ISBN:0-596-00070-7. : 


awk 的 指导 手册 ， 涵 盖 POSIX 标准 的 awk。 它 也 可 作为 dawk 的 用 户 指引 。 

2. :《The New KornShell Commahd and Programming Language), Morris I. Bolsky and 
David G. Korn. Prentice-Hall, Eiiglewood Cliffs, Ny, U.S.A., 1995. ISBN 0-13- 
182700-6. : . : ， wnt 


在 Korn Shell 上 最 可 靠 的 作品 。 


3: 《Hands-On KornShell93' Programining), Barry Rosenberg. Addison- ps 
Longman, Reading: MA; U:S.A., 1998. ISBN 0-201- 31018-X.: 


标准 
正式 的 标准 文件 是 重要 的 ， 因为 它们 表示 实现 者 与 计算 机 系统 用 户 之 间 的 “ “合约 "”。 


1. 《IEEE Standard 1003.1-2001: Standard for Information Technology-Portable 
Operating System Interface) (POSIX®) IEEE, New York, NY, U.S.A., 2001. 


这 是 次 新 的 POSIX 标准 。 它 结合 系统 调用 界面 与 Shell 及 工具 标准 在 一 份 文 件 中 。 
实际 上 此 标准 包括 许多 册 ， 可 在 线 取得 ( 注 3)， 通 过 PDF 电子 格式 打印 ( 注 4)， 
及 由 CD-ROM 提供; 


注 3: 参考 网 址 : httpi//www. opengroup.org/online pubs/007904975, 
注 4: 参考 网 址 : http://www.standards.ieee.org/。 
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”者 杰 定义 - | 
此 册 提 供 标准 的 历史 、 术语 的 定义 及 文件 格式 与 输出 入 格式 的 规范 。 ISBN 0- 
7381-3047-8，PDF; 0:7381-3010-9/SS94956; CD-ROM: 0-7381-3129-6/ 
2505 
基 杰 原理 (信息 型 ) Pe ey 
“不 是 标准 的 正式 部 分 ， 它 不 会 在 实例 上 加 诸 需求 ， 此 册 提供 POSIX 标准 中 为 
何事 情 是 如 此 的 说 明 。ISBN 0-7381-3048-6，PDF: 0-7381-3010-9/SS94956， 
. CD-ROM: 0-7381-3129-6/SE94956。 
系统 界面 
描述 C 或 C++ 程 序 员 能 看 到 操作 系统 的 界面 。 ISBN 0- 7381-3094-4; PDF: 0- 
7381-3010-9/SS94956， _CD-ROM: 0-7381-3129-6/SE94956。 
,Shell 与 T 具 . 
对 于 本 书 的 读者 更 为 相关 ， 它 描述 在 Shell 与 工具 层次 的 操作 系统 。 ISBN 0- 
7381-3050-8; PDF: 0-7381-3010-9/SS94956， CD-ROM: 0-7381-3129-6/SE9。 


2 《IEEE Standard 1003. 1- .2004: Standard for Information ‘Technology-Portable 
Operating System Interface) (POSIX®) IEEE, New York, NY, U.S.A., 2004. 


POSIX 标准 ， 当 本 书 付 印 时 发 行 。 . 它 是 前 一 版 的 修订 版 ， 且 以 相似 的 方式 
组 织 。 此 标准 包括 许多 册 : -基本 定义 〈Volume 1)、 系 统 界面 (Yolume 2)、Shell 
与 工具 (Volume 3 ) 和 基本 原理 (Volume 4) 。 


此 标准 可 从 htip://www.standards.ieee.org/ 订购 CD-ROM (产品 编号 SE95238, 
ISBN 0-7381-4049-X) 或 是 PDF (产品 编号 SS95238，ISBN 0-7381-4048-1)。 


3. ‘The Unicode Standard》, Version 4.0, The Unicode Consortium. Addison- Wesley, 
Reading, MA, U.S.A., 2003. ISBN 0-321-18578-1. 


4. ，XMDL 的 标准 ; 可 从 i /www.w3. RA xmly 中 取得 。 


安全 与 加 


《PGP: Bi Good ae Simson Garfinkel. O’Reilly, DT CA, U.S.A., 
1995, ISBN 1-56592-098-8. 


2. 《The Official PGP User’s Guide), Philip R. Zimmermann. MIT. Press; Cambridge, 
MA, U.S.A., 1995. ISBN 0-262-74017- 6. | 


3. 《Practical UNIX 信 ee Security); ‘Third Edition, Simson Garfinkel, Gene 
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Spafford, and Alan Schwartz. O’ Reilly, Eee CA, U.S.A., 2003. ISBN.0-596- 


”00323-4. 


《SS 证 The Secure Shell: ee ee Second Edition, Daniel J. Barrett, 
Richard E. Silverman, and Robert G. Byrnes. O’Reilly Media, Sebastopol, CA， 
U.S.A., 2005. ISBN 0-596-00895-3. 


《Secrets and Lies: Digital Security i in a Networked World), Bruce Sehneier. Wiley, 


New York, NY, U.S.A., 2000. ISBN 0-471- 25311- l1. 


本 书 深刻 地 揭露 计算 机 安全 性 对 每 一 个 世界 公 民 在 生活 上 、 数据 上 及 个 人 自由 上 的 
含意 。 Bruce Schneier 如 同 Brian Kernighan、 Jon Foney 与 Donald Knuth 一 样 ， 


总 是 值得 阅读 的 作家 之 一 。 


《The Code Book: The Biden of Geereey from 1 Oe of SCO to Quantum 
Cryptography), Simon Singh. oe ew York, NY, U.S. A., 1999. ISBN 0- 


“385-49531:5. 


《Applied Crppio seaphy: io RE a Source Code in 1 C), Second 


和 Edition， Bruce Schneier. Wiley, New York, NY, U.S: A., 1996. ISBN 0- 471- 12845- 
_7 (hardcover), 0-471- 11709-9 (paperback)’ 和 | 


KCryptographic Security Architecture: Design and Verification), Peter Gutmann. 


"Springert-Verlag, New York, NY: U.S.A., 2004: ISBN 0-387-95387-6. - 


1 


UNIX 内 部 


1. 


《Lions’;. Commentary on UNIX 6th Edition, with Source Code), John Lions.. Peer- 


to-Peer Communications, 1996..ISBN 1-57398-013-7, 


《The Design and Implementation of the 4.4BSD OQperating System), Marshall Kirk 
McKusick, Keith Bostic, Michael J. Karels, and John S$. Quarterman. Addison- 
Wesley, Reading, MA, U.S.A., 1996. ISBN 0-201-54979-4. 


《UNIX Internals: The New Frontiers», Uresh Vahalia. revice Hall, Bnglewood 


* Cliffs;'NJ;:U.S:A;, 1996. ISBN 0-13-101908-2. 


OReilly 书籍 


这 里 是 O'Reilly 书籍 的 列表 。 当 然 ， 还 有 许多 与 UNIX 相关 的 O， Reilly 书籍 ， 可 参考 


htip: ,Mo oreilly. onearalo 
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1l. .KLearning the bash Shell»》, Third Edition, Cameron Newham and Bill Rosenblatt. 
O’Reilly,; Sebastopo!l, CA, U.S.A., 2005. ISBN 0-596-00965-8. 


2. 《Learning the Korn Shell》，Second Edition, Bill Rosenblatt and Arnold Robbins. 
O’Reilly, Sebastopol, CA, U.S.A., 2002. ISBN 0-596-00195-9. 


3. 《Learning the UNIX Operating System》，Fifth Edition, Jerry Peek, Grace Todino, 
and John Strang..O’Reilly, Sebastopol, CA, U.S.A., 2001. ISBN 0-596-00261-0. 


4. 《Linux in a NutShell》， Third Edition, Ellen Siever, Stephen Spainhour, Jessica P. 
Hekman, and Stephen Figgins. O'Reilly, Sebastopol, CA, U. S.A., 2000. ISBN 0- 
596-00025-1. . 


5; 《Mastering Regular Expressions), Second Edition, Jeffrey E. F. Friedl..O’ Rellly, 
Sebastopol, CA, U.S.A., 2002. ISBN 0:596-00289-0. 
6. 《Managing Projects witi GNU make), Third Edition, Robert Mecklenburg, Andy 
Oram; and Steve Talbott. O’Reilly Media, Sebastopol; CA, U.S.A., 2005. ISBN: 0- 
596-00610-1. 


7. 《sed and awk》，Second Edition, Dale Dougherty and Arnold Robbins. Reilly, 
Sebastopol, CA, U.S.A., 1997. ISBN 1-56592:225-5. 


8. 《sed and awk Pocket Reference), Second Edition, Arnold Robbins. O"Reilly， 
Sebastopol, CA, U.S.A., 2002. ISBN 0-596-00352-8. 


9. 《UNIX in a NutShell), Third Edition, Arnold Robbins. O’Reilly, Sebastopol, CA， 
U.S.A., 1999. ISBN 1-56592-427-4. 


de 籍 


《CUPS: Common UNIX Printing System》，Michael R. Sweet. SAMS Publishing, 
Indianapolis, IN, U.S.A., 2001. ISBN 0-672-32196-3. 


2. 《SQL in a NutShell), Kevin Kline and Daniel Kline. O’Reilly, Sebastopol, CA， 
U.S.A., 2000. ISBN 1-56592-744-3. 


3. 《HTML & XHTML: The Definitive Guide), Chuck Musciano and Bill Kennedy. 
O’Reilly, Sebastopol, CA, U.S.A., 2002. ISBN 0-596-00026-X. 


4. 《The Cathedral and the Bazaar: Musings on Linux and Open Source by an Accidental 
Revolutionary), Eric S$. Raymond. O'Reilly, Sebastopol, CA, U.S.A., 2001. ISBN 
0-596-00131-2 (hardcover), 0-596-00108-8 (paperback). 
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《Texinfos The GNU Documentation Format);: Robert J. Chassell and Richard M. 


Stallman. Free Software Foundation, Cambridge, MA, U.S.A., 1999. ISBN 1- 


882114-67-1. 


《The TFEXbook), Donald E.:Knuth: Addison-Wesley, Reading, MA, U.S.A.,.1984. 


ISBN 0-201-13448-9. 


《The Art of Computer. Programming, Volume 2: Seminumerical Algorithms), 
Third. Edition, Donald E. Knuth. Addison-Wesley, Reading, MA, U.S.A., 1997. 


. :ISBN 0:201-89684-2. 


《Literate Programming), Donald E. Knuth. Stanford University Center for the 


， Study of Language and Information, Stanford, CA, U.S.A.,.1992. ISBN 0-937073- 


80-6 (paperback) and 0-937073-81-4 (hardcover). 


《Herman Hollerith 一 Forgotten Giant of Information Processing»》, Geoffrey D. 


Austrian. Columbia University Press, New York， NY, U.S.A. 1982. ISBN 0-231- 


10, 


11.. 


05146-8. 


《Father Son & Co, — My Life at IBM and Beyond) ,Thomas J. Watson Jr. and Peter 
Petre. Bantam Books, New York, NY, U.S-A,, 1990. ISBN 0-553-07011-8. 


《A Quarter Century of UNIX», Peter H. Salus. Addison-Wesley, Reading, MA, 
U.S.A., 1994. ISBN 0-201-54777-5.. ... 
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作者 简介 





Arnold Robbins 是 亚特兰大 人 ， 他 是 一 位 专业 程序 员 与 技术 作家 。 他 也 是 一 位 快乐 
的 丈夫 ; 4 个 可 性 芒 子 的 父亲 ， EA oo 与 : Yerusalon)s :1997 年 
末 ， We 


Arnold 从 1980 年 开始 全 用 UNIX 系统 ， 那 是 一 台 执 行 第 6 版 UNIX (Sixth Edition 
UNIX) 的 PDP-11。 从 1984 年 开始 他 已 经 着 手 Shell 脚 人 编写 , 先 从 增强 型 Bourne 
Shell: 全 使 用 orn Shell 3 bash,. 


自 1987 年 开始 ， Arnold 也 已 经 是 重度 的 awk 用 户 ， 当时 他 使 用 Cr 
的 GNU 版 。 身 为 POSIX 1003.2 的 委员 ,他 曾 协 助 awk 的 POSIX 标准 建立 。 他 目前 
是 gawk 及 其 文件 的 维护 者 。 


他 曾 是 个 系统 管理 者 以 及 UNIX 与 网 络 持续 教育 课程 的 老师。 他 也 曾 拥有 一 家 创业 型 
软件 公司 ， 但 是 他 已 不 想 再 提起 。 他 希望 有 一 天 能 将 他 自己 的 网 站 放 在 http:// 


www.skeeve.com 。 


O'Reilly 已 经 使 他 很 已 了 。 他 是 畅销 书 《Learning the vi Editor》、 《Effective awk 
Programming》、 《sed and awk》、《Learning the Korn Shell》. 《UNIX in a Nutshell》 
以 及 许多 口 人 参考 书 的 合 著者 。 


Nelson H. F. Beebe 是 犹他 大 学 数学 系 研究 所 教授 ， 具 有 化 学 、 物 理 、 数 学 、 电 子 
计算 机 科学 以 及 计算 工具 管理 等 后 台 。 他 曾 在 几 个 主要 制造 商 的 计算 机 上 工作 过 许多 
年 。 他 总 是 会 在 个 人 计算 机 中 为 每 种 UNIX 打 分 。 他 是 许多 程序 语言 (包括 awk)、 浮 
点 算术 、 软 件 可 移植 性 、 科 学 软件 与 计算 机 图 形 的 专家 ,而 且 长 期 从 事 在 早 期 UNIX 
时 代 的 电子 文件 与 排版 。 


封面 介绍 








我 们 的 外 观 是 取 自 于 读者 建议 .我 们 自己 的 经 验 及 经 销 商 的 回馈 ,与 众 不 同 的 封面 结 
合 我 们 对 技术 主题 特有 的 表现 方式 ， 将 个 性 与 生活 融入 较为 艰 湿 的 主题 。 
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本 书 的 动物 封面 是 非洲 的 帐 荆 陆 龟 (Psammobates tentorius) ,其 龟甲 呈现 几何 形状 。 
Psammobates 的 含义 是 “热爱 沙 地 "， 其 栖息 地 包括 干燥 的 草原 、 沙 汉 边 缘 及 沿海 沙 
地 ; 属于 典型 的 干燥 炎热 气候 。 所 以 帐 菠 陆 龟 只 能 在 南非 的 草原 与 沙漠 外 围 找 到 :, 这 
一 点 也 不 令 人 惊讶 。 这 种 类 型 的 所 有 品种 都 是 小 型 的 , 大 小 约 从 5 英寸 到 10 英 寸 ,而 
且 在 它们 的 甲壳 上 有 黄色 放射 型 的 标记 。 帐 东 陆 龟 特 别 突出 的 特征 是 具有 拱 起 的 龟 


陆 龟 以 它们 的 长 寿 出 名 ,而 且 乌 龟 与 陆 龟 也 是 今日 最 古老 的 物种 。: 筷 们 在 2 亿 年 前 的 
恐龙 时 代 就 已 存在 。 所 有 的 龟 类 部 依赖 温度 ,也 就 是 它们 只 在 温度 不 是 太极 闯 时 才 吃 
东西 。 在 酷 署 与 寒冬 期 间 ，, 陆 龟 会 冬眠 且 群 体 停止 进食 。 在 春天 ， fa Ae 
汁 植物 、 纤 维 植物 及 牧草 。 
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计算 机 精品 学 习 资料 大 放送 


软考 官方 指定 教材 及 同步 辅导 书 下载 1 软考 历年 真是 解析 与 答案 

软考 视频 1 考试 机 构 | 考试 时 间 安 排 

Java 一 览 无 余 : Java 视 频 教程 1 Java SE | Java EE 

.Net 技 术 精 品 资料 下 载 汇 总 ，ASP.NET 篇 

.Net 技 术 精 品 资料 下 载 汇 总 ，C# 语 言 篇 

.Net 技 术 精 品 资料 下 载 汇总 ，VB.NET 篇 

撼 世 出 击 : C/C++ 编程 语言 学 习 资 料 尽 收 眼底 电子 书 + 视频 教程 

Visual C++(VC/MFO) 学 习 电 子 书 及 开发 工具 下 载 

PerVCGI 脚 本 语言 编程 学 习 资源 下 载 地 址 大 全 

Python 语言 编程 学 习 资料 (电子 书 + 视 频 教程 ) 下 载 汇总 

最 新 最 全 Ruby、Ruby on Rails 精 品 电子 书 等 学 习 资料 下 载 

数据 库 管理 系统 (DBMS) 精 品 学 习 资 源 汇总 : MySQL 篇 1SQL Server 篇 1Oracle 篇 
平面 设计 优秀 资源 学 习 下 载 1Flash 优 秀 资源 学 习 下 载 13D 动 画 优秀 资源 学 习 下 载 
最 强 HTML/xHTML、CSS 精 品 学 习 资 料 下 载 汇 总 

最 新 JavaScript、Ajax 典 藏 级 学 习 资料 下 载 分 类 汇总 

网 络 最 强 PHP 开 发 工具 + 电子 书 + 视频 教程 等 资料 下 载 汇 总 

UML 学 习 电子 资 下 载 汇总 软件 设计 与 开发 人 员 必 备 

经 典 LinuxCBT 视 频 教程 系列 Linux 快 速 学 习 视 频 教 程 一 帖 通 

天 罗 地 网 : 精品 Linux 学 习 资料 大 收集 (电子 书 + 视频 教程 ) Linux 参 考 资 源 大 系 
Linux 系 统管 理 员 必 备 参 考 资料 下 载 汇 总 

Linux shell、 内 核 及 系统 编程 精品 资料 下 载 汇总 

UNIX 操 作 系 统 精 品 学 习 资料 < 电子 书 + 视频 > 分 类 总 汇 
FreeBSD/OpenBSD/NetBSD 精 品 学 习 资 源 索 引 含 书 籍 + 视频 
Solaris/OpenSolaris 电 子 书 、 视 频 等 精华 资料 下 载 索 引 


>> 更 多 精品 资料 请 访问 大 家 论坛 计算 机 区 .… 


